41 Stimmen

Öffentlich verfügbares Spamfilter-Trainingsset

Ich bin neu im Bereich des maschinellen Lernens, und für mein erstes Projekt möchte ich einen naiven Bayes-Spamfilter schreiben. Ich frage mich, ob es irgendwelche öffentlich zugänglichen Trainingssätze von gekennzeichneten Spam/Nicht-Spam-E-Mails gibt, vorzugsweise im Klartext und nicht als Auszug aus einer relationalen Datenbank (es sei denn, diese werden hübsch gedruckt).

Ich weiß, dass eine solche öffentlich zugängliche Datenbank auch für andere Arten der Textklassifizierung existiert, insbesondere für Nachrichtenartikel. Für E-Mails konnte ich so etwas noch nicht finden.

34voto

JeremyKun Punkte 2917

Hier ist, wonach ich gesucht habe: http://untroubled.org/spam/

Dieses Archiv enthält etwa ein Gigabyte an komprimierten, gesammelten Spam-Nachrichten aus den Jahren 1998 bis 2011. Jetzt muss ich nur noch Nicht-Spam-E-Mails bekommen. Dazu werde ich einfach mein eigenes Gmail abfragen, indem ich das Programm getmail und die Anleitung unter mattcutts.com

10voto

doug Punkte 67204

Sicher, es gibt Spambase der meines Wissens nach der am häufigsten zitierte Spam-Datensatz in der Literatur zum maschinellen Lernen ist.

Ich habe diesen Datensatz schon viele Male verwendet; jedes Mal bin ich beeindruckt, wie viel Mühe in die Formatierung und Dokumentation dieses Datensatzes gesteckt wurde.

Einige Merkmale des Spambase-Sets:

  • 4601 Datenpunkte - alle vollständig

  • die jeweils aus 58 Merkmalen bestehen (Attribute)

  • jeder Datenpunkt wird als "Spam" oder 'kein Spam' gekennzeichnet

  • ca. 40% sind als Spam gekennzeichnet

  • der Merkmale, alle sind kontinuierlich (vs. diskret)

  • ein repräsentatives Merkmal: Durchschnitt kontinuierliche Folge von Großbuchstaben Buchstaben

Spambase wird archiviert in der UCI-Repository für maschinelles Lernen ; außerdem ist es auch auf der Website Website für die hervorragende Abhandlung über ML/Statistische Berechnungen, Elemente des statistischen Lernens von Hastie et al.

8voto

ViennaMike Punkte 2013

SpamAssassin hat eine öffentlicher Korpus von Spam- und Nicht-Spam-Nachrichten, obwohl es seit einigen Jahren nicht mehr aktualisiert wurde. Lesen Sie die Datei readme.html, um zu erfahren, was dort steht.

6voto

Keith Trnka Punkte 61

Sie könnten einen Blick auf den TREC Spam/Ham Corpus werfen (ich glaube, das ist die Sammlung von E-Mails von Enron, die im Rahmen des Gerichtsverfahrens veröffentlicht wurde). TREC führt in der Regel eine Reihe von wettbewerbsfähigen Textverarbeitungsaufgaben durch, so dass Sie einige Referenzen zum Vergleich erhalten könnten.

Der Nachteil ist, dass sie im rohen mbox-Format gespeichert werden, obwohl es Parser in vielen Sprachen gibt (Apache Tika ist ein gutes Beispiel).

Die Webseite ist nicht TREC, aber sie scheint einen guten Überblick über die Aufgabe mit Links zu den Daten zu bieten: http://plg.uwaterloo.ca/~gvcormac/spam/

4voto

warmspringwinds Punkte 1107

Eine modernere Spam-Trainingsgruppe ist zu finden unter . . Außerdem können Sie die Genauigkeit Ihres Klassifikators auf der Website testen, indem Sie Ihre Ergebnisse hochladen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X