2 Stimmen

Wie man Cookies in einem Crawler behandelt

Ich baue einen Webcrawler (einen kleinen). Einige Websites wie NYTIMES überprüfen bei jedem Besuch auf Cookies. Es scheint, dass sie zuerst den Cookie überprüfen, und wenn er nicht verfügbar ist, wird er gesetzt. Wenn etwas schief geht, erfolgt eine Weiterleitung zur Login-Seite.

Jetzt, wie kann dieses Verhalten mit Programmierung behandelt werden und eine Weiterleitung verhindert werden.

0voto

pieman72 Punkte 816

Allgemeine Antwort: Cookies werden zu verschiedenen Zwecken verwendet, daher gibt es keine Einheitslösung, die Sie für einen Crawler verwenden können. Die meisten Websites verwenden Cookies als wesentlichen Bestandteil ihrer Benutzeridentifikationsschemata, und wenn Sie daran herumspielen, erkennt die Website Ihren Crawler möglicherweise nicht als das, was er ist. Das ist nicht erwünscht. Wenn Sie jedoch mehr Informationen zum Senden von Cookiedaten möchten, können Sie hier lesen: http://en.wikipedia.org/wiki/HTTP_cookie#Setting_a_cookie. Die wichtige Zeile im HTTP-Anforderung ist:

Cookie: name=value; name2=value2

Spezifische Antwort: Nach meinem Wissen erfordert die NY Times-Website ein Abonnement, um ihre Inhalte zu lesen, daher sind ihre Cookies wahrscheinlich für die Authentifizierung erforderlich und sollten nicht von einem Crawler gefälscht werden.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X