2 Stimmen

Vergleich zwischen Nutch und Heritrix

Ich möchte eines der oben genannten Systeme für den Aufbau eines Crawling-Frameworks für bestimmte Websites auswählen. Es handelt sich nicht um einen internetweiten Crawl. Ich baue keinen Suchindex auf, sondern bin eher daran interessiert, bestimmte Seiten der Website zu erfassen.

Könnte bitte jemand die Vor- und Nachteile der oben genannten Maßnahmen erläutern? Danke Nayn

-1voto

Upul Bandara Punkte 5845

Ihre Hauptaufgabe besteht darin, bestimmte Seiten von der Website zu scrapen.

Niederländisch : Open-Source-Web-Such-Software, basierend auf Lucene Java

Heritrix : ist das quelloffene, erweiterbare, webbasierte Web-Crawler-Projekt des Internet Archive, das Archivierungsqualität bietet.

Ich denke also, dass Heritrix für Ihr Projekt viel besser geeignet ist als Nutch.

Das Erlernen eines Frameworks/einer Bibliothek ist eine wertvolle Übung. Aber es braucht einige Zeit. Da Ihre Aufgabe nicht sehr komplex ist, wäre es manchmal weniger schmerzhaft, einen einfachen Crawler von Grund auf in Java zu schreiben

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X