3 Stimmen

Beste Open-Source-Bibliothek oder -Anwendung zum Crawlen und Data-Mining von Websites

Ich würde gerne wissen, was die beste Open-Source-Bibliothek für das Crawlen und Analysieren von Websites ist. Ein Beispiel wäre ein Crawler Immobilienagenturen, wo ich möchte, um Informationen aus einer Reihe von Websites zu greifen und aggregieren sie in meine eigene Website. Dazu muss ich die Websites crawlen und die Immobilienanzeigen extrahieren.

8voto

Eugene Morozov Punkte 13864

Ich mache viel Scraping und verwende dafür ausgezeichnete Python-Pakete urllib2 , mechanisieren y BeautifulSoup .

Ich empfehle auch einen Blick auf lxml y Scrapy obwohl ich sie derzeit nicht verwende (ich plane noch, Scrapy auszuprobieren).

Die Sprache Perl bietet auch großartige Möglichkeiten zum Scraping.

1voto

pour toi Punkte 1006

PHP/cURL ist eine sehr leistungsfähige Kombination, vor allem wenn Sie die Ergebnisse direkt in einer Webseite verwenden wollen...

1voto

Bill Bell Punkte 20086

Wie Herr Morozov mache auch ich ziemlich viel Scraping, vor allem von Baustellen. Ich musste noch nie auf Mechanik zurückgreifen, falls das etwas hilft. Beautifulsoup in Kombination mit urllib2 war immer ausreichend.

Ich habe lxml verwendet, das großartig ist. Ich glaube jedoch, dass es vor ein paar Monaten, als ich es ausprobierte, nicht mit Google Apps verfügbar war, falls Sie das benötigen.

Mein Dank gilt Herrn Morozov für die Erwähnung von Scrapy. Ich hatte noch nie davon gehört.

0voto

Joseph Turian Punkte 13668

Neben Scrapy sollten Sie sich auch Folgendes ansehen Parselets

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X