Wie man Cookies in einem Crawler behandelt

Question

Wie man Cookies in einem Crawler behandelt

Gefragt el 9 de Juni, 2014: Wann wurde die Frage gestellt
1357 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Open: Aktueller Status der Frage

Ich baue einen Webcrawler (einen kleinen). Einige Websites wie NYTIMES überprüfen bei jedem Besuch auf Cookies. Es scheint, dass sie zuerst den Cookie überprüfen, und wenn er nicht verfügbar ist, wird er gesetzt. Wenn etwas schief geht, erfolgt eine Weiterleitung zur Login-Seite.

Jetzt, wie kann dieses Verhalten mit Programmierung behandelt werden und eine Weiterleitung verhindert werden.

Gefragt el 9 de Juni, 2014 von akshayb

Answer 1

1 Antworten

Answer 2

0voto

pieman72 Punkte 816

Allgemeine Antwort: Cookies werden zu verschiedenen Zwecken verwendet, daher gibt es keine Einheitslösung, die Sie für einen Crawler verwenden können. Die meisten Websites verwenden Cookies als wesentlichen Bestandteil ihrer Benutzeridentifikationsschemata, und wenn Sie daran herumspielen, erkennt die Website Ihren Crawler möglicherweise nicht als das, was er ist. Das ist nicht erwünscht. Wenn Sie jedoch mehr Informationen zum Senden von Cookiedaten möchten, können Sie hier lesen: http://en.wikipedia.org/wiki/HTTP_cookie#Setting_a_cookie. Die wichtige Zeile im HTTP-Anforderung ist:

Cookie: name=value; name2=value2

Spezifische Antwort: Nach meinem Wissen erfordert die NY Times-Website ein Abonnement, um ihre Inhalte zu lesen, daher sind ihre Cookies wahrscheinlich für die Authentifizierung erforderlich und sollten nicht von einem Crawler gefälscht werden.

Beantwortet el 9 de Juni, 2014 von pieman72 (816 Punkte )

Wie man Cookies in einem Crawler behandelt

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie man Cookies in einem Crawler behandelt

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: