Ich schreibe einen Code, der bestimmte Statistiken über die Verwendung von Wörtern errechnet.
Weiß jemand, wo ich eine Datenbank mit Rohdaten von Nachrichtenartikeln zu verschiedenen Themen über einen Zeitraum von (sagen wir) einem Jahr finden kann? Vorzugsweise sollten sie entweder im reinen Textformat oder im XML-Format vorliegen. Der Versuch, Inhalte von zufälligen Websites zu scrapen, ist keine gute Option.
Ich weiß, dass ich sie in Zukunft wahrscheinlich selbst archivieren könnte. Allerdings muss ich den Prozess mit einer Reihe bestehender Artikel in Gang setzen... je mehr, desto besser.
Weitere Ideen für Korpusdaten, die leicht in einfach zu analysierender Form verfügbar sind, wären ebenfalls willkommen.