Ich würde gerne wissen, was die beste Open-Source-Bibliothek für das Crawlen und Analysieren von Websites ist. Ein Beispiel wäre ein Crawler Immobilienagenturen, wo ich möchte, um Informationen aus einer Reihe von Websites zu greifen und aggregieren sie in meine eigene Website. Dazu muss ich die Websites crawlen und die Immobilienanzeigen extrahieren.
Antworten
Zu viele Anzeigen?Ich mache viel Scraping und verwende dafür ausgezeichnete Python-Pakete urllib2 , mechanisieren y BeautifulSoup .
Ich empfehle auch einen Blick auf lxml y Scrapy obwohl ich sie derzeit nicht verwende (ich plane noch, Scrapy auszuprobieren).
Die Sprache Perl bietet auch großartige Möglichkeiten zum Scraping.
Wie Herr Morozov mache auch ich ziemlich viel Scraping, vor allem von Baustellen. Ich musste noch nie auf Mechanik zurückgreifen, falls das etwas hilft. Beautifulsoup in Kombination mit urllib2 war immer ausreichend.
Ich habe lxml verwendet, das großartig ist. Ich glaube jedoch, dass es vor ein paar Monaten, als ich es ausprobierte, nicht mit Google Apps verfügbar war, falls Sie das benötigen.
Mein Dank gilt Herrn Morozov für die Erwähnung von Scrapy. Ich hatte noch nie davon gehört.
Neben Scrapy sollten Sie sich auch Folgendes ansehen Parselets