2 Stimmen

Was ist der beste Weg, um programmgesteuert in einer Website anmelden, um Bildschirm scrapen? (Vorzugsweise in Python)

Ich möchte mich programmgesteuert bei einer Website anmelden und in regelmäßigen Abständen einige Informationen von der Website abrufen. Welches ist das beste Werkzeug, das dies so einfach wie möglich macht? Ich würde eine Python-Bibliothek bevorzugen, weil ich Python besser beherrschen möchte, aber ich bin für alle Vorschläge offen.

8voto

sykora Punkte 88704

Sie können Mechanize ausprobieren ( http://wwwsearch.sourceforge.net/mechanize/ ) für programmatisches Web-Browsing, und verwenden Sie unbedingt Beautiful Soup ( http://www.crummy.com/software/BeautifulSoup/ ) für das Kratzen.

3voto

S.Lott Punkte 371691

Die meisten von uns verwenden urllib2 um die Seite abzurufen; sie kann verschiedene Formen der Authentifizierung und Cookie-Sammlung handhaben. Dann Schöne Suppe um die Ergebnisse zu analysieren.

2voto

Stompchicken Punkte 15692

Ich habe einmal ein Python-Skript geschrieben, um mich automatisch in vBulletin-Foren anzumelden. Der schwierige Teil war zu wissen, wie man die Login-Anfrage richtig formt, und das ist etwas, bei dem einem eine Bibliothek nicht helfen kann. Ich fand Live-Http-Header - ein Addon für Firefox - ist sehr hilfreich, um zu sehen, was zwischen Client und Server während des Anmeldevorgangs gesendet wird.

Ich stimme auch allen anderen zu, dass Beautiful Soup ziemlich großartig ist.

1voto

si28719e Punkte 2125

Ich empfehle die Verwendung von Twill Es ist ein Kinderspiel, das Anmeldeverfahren durchzuführen und dann beautifulsoup usw. zu verwenden. wie oben beschrieben. Ich habe nie versucht, mechanize, aber es sieht ziemlich gut.

1 Stimmen

Köper ist im Wesentlichen eine dünne Schale um das Mechanikpaket.

0voto

pankajanand18 Punkte 383

Nur für Screen Scraping können Sie eine Kombination aus url lib + pyqyery verwenden. https://pythonhosted.org/pyquery/

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X