Beste Open-Source-Bibliothek oder -Anwendung zum Crawlen und Data-Mining von Websites

Question

Beste Open-Source-Bibliothek oder -Anwendung zum Crawlen und Data-Mining von Websites

Gefragt el 17 de April, 2009: Wann wurde die Frage gestellt
1933 Ansichten: Anzahl der Besuche der Frage
4 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich würde gerne wissen, was die beste Open-Source-Bibliothek für das Crawlen und Analysieren von Websites ist. Ein Beispiel wäre ein Crawler Immobilienagenturen, wo ich möchte, um Informationen aus einer Reihe von Websites zu greifen und aggregieren sie in meine eigene Website. Dazu muss ich die Websites crawlen und die Immobilienanzeigen extrahieren.

Gefragt el 17 de April, 2009 von gyurisc

Answer 1

4 Antworten

Answer 2

8voto

Eugene Morozov Punkte 13864

Ich mache viel Scraping und verwende dafür ausgezeichnete Python-Pakete urllib2 , mechanisieren y BeautifulSoup .

Ich empfehle auch einen Blick auf lxml y Scrapy obwohl ich sie derzeit nicht verwende (ich plane noch, Scrapy auszuprobieren).

Die Sprache Perl bietet auch großartige Möglichkeiten zum Scraping.

Beantwortet el 17 de April, 2009 von Eugene Morozov (13864 Punkte )

Answer 3

1voto

pour toi Punkte 1006

PHP/cURL ist eine sehr leistungsfähige Kombination, vor allem wenn Sie die Ergebnisse direkt in einer Webseite verwenden wollen...

Beantwortet el 2 de Juni, 2009 von pour toi (1006 Punkte )

Answer 4

1voto

Bill Bell Punkte 20086

Wie Herr Morozov mache auch ich ziemlich viel Scraping, vor allem von Baustellen. Ich musste noch nie auf Mechanik zurückgreifen, falls das etwas hilft. Beautifulsoup in Kombination mit urllib2 war immer ausreichend.

Ich habe lxml verwendet, das großartig ist. Ich glaube jedoch, dass es vor ein paar Monaten, als ich es ausprobierte, nicht mit Google Apps verfügbar war, falls Sie das benötigen.

Mein Dank gilt Herrn Morozov für die Erwähnung von Scrapy. Ich hatte noch nie davon gehört.

Beantwortet el 1 de Juli, 2009 von Bill Bell (20086 Punkte )

Answer 5

0voto

Joseph Turian Punkte 13668

Neben Scrapy sollten Sie sich auch Folgendes ansehen Parselets

Beantwortet el 16 de Oktober, 2009 von Joseph Turian (13668 Punkte )

Beste Open-Source-Bibliothek oder -Anwendung zum Crawlen und Data-Mining von Websites

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Beste Open-Source-Bibliothek oder -Anwendung zum Crawlen und Data-Mining von Websites

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: