4 Stimmen

Wie verhindere ich, dass Httrack dieselbe Datei erneut herunterlädt?

Ich benutze httrack, um diese Website herunterzuladen: http://4minutearticles.com/

Das Problem ist jedoch, dass der Autor auf jeder Seite seiner Website einen Link zur Hauptseite zurücksetzt.

Zum Beispiel http://4minutearticles.com/ext/

Der Elternverzeichnislink leitet zur Hauptseite um und die Software beginnt erneut mit dem Herunterladen

Wie verhindere ich, dass sich diese Schleife wiederholt?

3voto

qwerty Punkte 2294

Lies die Antwort auf die Frage unter dem folgenden Link:

"Ich habe doppelte Dateien! Was ist los?"

Link: http://www.httrack.com/html/faq.html#Q1b11

Schau dir auch die "Filter:Erweitert" unter folgendem Link an:

http://www.httrack.com/html/filters.html

Es könnte dir bei deinem Problem helfen.

1voto

qwerty Punkte 2294

Sie können Filter verwenden, um HTTRACK daran zu hindern, gleiche Dateien oder Ordner herunterzuladen. Klicken Sie dazu auf die Schaltfläche "Optionen festlegen" vor dem Label "Einstellungen und Spiegeloptionen", öffnen Sie dann den Tab "Scan Regeln" und dann die Schaltfläche "Links ausschließen", um die Regeln nach Ihren Wünschen festzulegen.

0voto

kenorb Punkte 134883

Dies ist im Allgemeinen der Fall für Top-Indizes (index.html und index-2.html).

Dies ist ein häufiges Problem, das jedoch nicht leicht vermieden werden kann!

Zum Beispiel können http://www.foobar.com/ und http://www.foobar.com/index.html die gleichen Seiten sein. Wenn jedoch Links auf der Website sowohl auf http://www.foobar.com/ als auch auf http://www.foobar.com/index.html verweisen, werden diese beiden Seiten erfasst. Und weil http://www.foobar.com/ einen Namen haben muss, da Sie die Website lokal durchsuchen möchten (der / würde ein Verzeichnislisting und nicht den Index selbst anzeigen!), muss HTTrack einen finden. Daher werden zwei index.html erstellt, davon eine mit -2, um anzuzeigen, dass die Datei umbenannt werden musste.

Es könnte eine gute Idee sein zu bedenken, dass http://www.foobar.com/ und http://www.foobar.com/index.html die gleichen Links sind, um doppelte Dateien zu vermeiden, oder? NEIN, denn der Top-Index (/) kann auf JEDE Datei verweisen, und wenn index.html im Allgemeinen der Standardname ist, kann auch index.htm gewählt werden, oder index.php3, mydog.jpg oder alles, was Sie sich vorstellen können. (manche Webmaster sind wirklich verrückt)

Hinweis: In einigen seltenen Fällen können doppelte Datendateien gefunden werden, wenn die Website auf eine andere Datei umleitet. Dieses Problem sollte selten sein und könnte durch die Verwendung von Filtern vermieden werden.

Siehe auch: Ein Projekt aktualisieren

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X