2 Stimmen

Wo kann ich unbearbeitete Nachrichtenartikel aus dem letzten Jahr finden?

Ich schreibe einen Code, der bestimmte Statistiken über die Verwendung von Wörtern errechnet.

Weiß jemand, wo ich eine Datenbank mit Rohdaten von Nachrichtenartikeln zu verschiedenen Themen über einen Zeitraum von (sagen wir) einem Jahr finden kann? Vorzugsweise sollten sie entweder im reinen Textformat oder im XML-Format vorliegen. Der Versuch, Inhalte von zufälligen Websites zu scrapen, ist keine gute Option.

Ich weiß, dass ich sie in Zukunft wahrscheinlich selbst archivieren könnte. Allerdings muss ich den Prozess mit einer Reihe bestehender Artikel in Gang setzen... je mehr, desto besser.

Weitere Ideen für Korpusdaten, die leicht in einfach zu analysierender Form verfügbar sind, wären ebenfalls willkommen.

0voto

DMKing Punkte 1695

Versuchen Sie die Internet-Archiv . Sie haben einen Textteil, aber ich weiß nicht, ob es dort Nachrichten gibt. Vielleicht können Sie auch die Wayback-Maschine nutzen, um Nachrichtenartikel von größeren Websites über deren RSS-Feeds abzurufen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X