41 Stimmen

Öffentlich verfügbares Spamfilter-Trainingsset

Ich bin neu im Bereich des maschinellen Lernens, und für mein erstes Projekt möchte ich einen naiven Bayes-Spamfilter schreiben. Ich frage mich, ob es irgendwelche öffentlich zugänglichen Trainingssätze von gekennzeichneten Spam/Nicht-Spam-E-Mails gibt, vorzugsweise im Klartext und nicht als Auszug aus einer relationalen Datenbank (es sei denn, diese werden hübsch gedruckt).

Ich weiß, dass eine solche öffentlich zugängliche Datenbank auch für andere Arten der Textklassifizierung existiert, insbesondere für Nachrichtenartikel. Für E-Mails konnte ich so etwas noch nicht finden.

2voto

Frantique Punkte 177

Ich habe auch eine Antwort, aquí finden Sie eine täglich aktualisierte Bayes'sche Datenbank für das anfängliche Training sowie ein täglich erstelltes Archiv mit erfassten Spams. Auf der Website finden Sie Anleitungen zur Nutzung des Systems.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X