4 Stimmen

Zu aggressiver Bot?

Ich baue einen kleinen Bot, der ein paar Websites durchforstet. Nun, ich teste ihn gerade aus und habe 2 Arten von Einstellungen ausprobiert:

  1. etwa 10 Anfragen alle 3 Sekunden - die IP wurde gesperrt, also sagte ich - ok, das ist zu schnell.

  2. 2 Anfragen alle 3 Sekunden - die IP wurde nach 30 Minuten und 1000+ gecrawlten Links gesperrt.

Ist das immer noch zu schnell? Ich meine, wir reden über fast 1.000.000 Links, sollte ich die Nachricht erhalten, dass "wir einfach nicht gecrawlt werden wollen", oder ist das immer noch zu schnell?

Danke.

Editer

Ich versuchte es erneut - 2 Anfragen alle 5 Sekunden - 30 Minuten und 550 Links später wurde ich gesperrt.

Ich gehe von einer Anfrage alle 2 Sekunden aus, aber ich vermute, dass das Gleiche passieren wird. Ich werde wohl einen Administrator kontaktieren müssen - falls ich ihn finden kann.

8voto

z - Punkte 7060

Hier sind einige Leitlinien für Web Raupenfahrzeug Höflichkeit .

Wenn das Herunterladen einer Seite x Sekunden dauert, sollte man mindestens 10-15 Mal warten, bevor man sie erneut herunterlädt.

Stellen Sie außerdem sicher, dass Sie auch robots.txt beachten.

0voto

Ja, es ist zu schnell.

Im Allgemeinen halten die Crawler eine Rate von 1 Anfrage pro Minute ein.

Ehrlich gesagt ist es eine niedrige Crawling-Rate. Aber nach wenigen Minuten können Sie eine Warteschlange von URLs haben (eine lange Liste :) ). Sie können über diese Liste rotieren, bis die nächste Abzweigung zu der bestimmten URL kommt.

Wenn Sie die Möglichkeit einer verteilten Architektur haben (mehrere Knoten mit verschiedenen Netzwerkverbindungen, sogar HyperVs oder VMs), können Sie eine höhere Geschwindigkeit in Betracht ziehen. Die verschiedenen Hosts im Netz können die Inhalte effektiver abrufen.

0voto

Pat Punkte 5260

Eine der besten Überlegungen, die es zu berücksichtigen gilt, sind die Eigentümer der Website. Wie bereits erwähnt, ist die robots.txt-Datei der Standard für Websites, die dies tun.

Kurz gesagt gibt es in der robots.txt 3 Möglichkeiten, die Anfragegeschwindigkeit zu begrenzen.

Kriechgang-Verzögerung: # , eine ganze Zahl, die die Wartezeit in Sekunden zwischen den Anfragen angibt.

Anfrage-Rate: # / # , wobei der Zähler die Anzahl der Seiten und der Nenner die Anzahl der Seiten pro Sekunde angibt, d. h.: 1/3 = 1 Seite alle 3 Sekunden.

Besuchszeit: ####-#### , zwei 4-stellige Zahlen, getrennt durch einen Bindestrich, die die Uhrzeit (HH:MM GMT) angeben, zu der Sie die Website besuchen sollten.

In Anbetracht dieser Vorschläge/Aufforderungen werden Sie feststellen, dass einige Websites nichts davon in ihrer robots.txt haben, worauf Sie Einfluss haben. Ich würde vorschlagen, die Rate auf ein Minimum von 1 Seite pro Sekunde zu beschränken und gleichzeitig zu begrenzen, wie viele Seiten Sie pro Tag abrufen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X