Ich bin neu im Bereich des maschinellen Lernens, und für mein erstes Projekt möchte ich einen naiven Bayes-Spamfilter schreiben. Ich frage mich, ob es irgendwelche öffentlich zugänglichen Trainingssätze von gekennzeichneten Spam/Nicht-Spam-E-Mails gibt, vorzugsweise im Klartext und nicht als Auszug aus einer relationalen Datenbank (es sei denn, diese werden hübsch gedruckt).
Ich weiß, dass eine solche öffentlich zugängliche Datenbank auch für andere Arten der Textklassifizierung existiert, insbesondere für Nachrichtenartikel. Für E-Mails konnte ich so etwas noch nicht finden.