Nutch solrindex Befehl indiziert nicht alle URLs in Solr

Question

Nutch solrindex Befehl indiziert nicht alle URLs in Solr

Gefragt el 21 de Juni, 2011: Wann wurde die Frage gestellt
3079 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe einen Nutch-Index, der von einer bestimmten Domain gecrawlt wurde, und ich verwende den Befehl solrindex, um die gecrawlten Daten in meinen Solr-Index zu übertragen. Das Problem ist, dass anscheinend nur einige der gecrawlten URLs tatsächlich in Solr indexiert werden. Ich habe den Nutch-Crawl in eine Textdatei ausgeben lassen, damit ich die gecrawlten URLs sehen kann, aber wenn ich nach einigen der gecrawlten URLs in Solr suche, erhalte ich keine Ergebnisse.

Befehl, mit dem ich das Nutch Crawl durchführe: bin/nutch crawl urls -dir crawl -depth 20 -topN 2000000

Dieser Befehl wird erfolgreich ausgeführt und die Ausgabe zeigt URLs an, die ich im resultierenden Solr-Index nicht finden kann.

Befehl, mit dem ich die gecrawlten Daten an Solr schicke: bin/nutch solrindex [http://localhost:8983/solr/](http://localhost:8983/solr/) crawl/crawldb crawl/linkdb crawl/segments/*

Die Ausgabe für diesen Befehl besagt, dass er ebenfalls erfolgreich abgeschlossen wird, es scheint also kein Problem mit dem vorzeitigen Beenden des Prozesses zu sein (was ich anfangs dachte).

Eine letzte Sache, die ich seltsam finde, ist, dass die gesamte Nutch- und Solr-Konfiguration identisch ist mit einer Konfiguration, die ich zuvor auf einem anderen Server verwendet habe und bei der ich keine Probleme hatte. Es sind buchstäblich die gleichen Konfigurationsdateien, die auf diesen neuen Server kopiert wurden.

TL;DR: Ich habe eine Reihe von URLs erfolgreich in Nutch gecrawlt, aber wenn ich den solrindex-Befehl ausführe, werden nur einige von ihnen an Solr übertragen. Bitte helfen Sie mir.

UPDATE: Ich habe all diese Befehle erneut ausgeführt, und die Ausgabe behauptet immer noch, dass alles einwandfrei funktioniert. Ich habe alle Blocker für die Indizierung untersucht, die mir einfallen, aber immer noch kein Glück. Die URLs, die an Solr übergeben werden, sind alle aktiv und öffentlich zugänglich, also ist das kein Problem. Ich bin wirklich schlagen meinen Kopf gegen eine Wand hier so würde einige Hilfe zu lieben.

Gefragt el 21 de Juni, 2011 von Hugh Lashbrooke

Answer 1

1 Antworten

Answer 2

1voto

mana Punkte 5927

Aus meinen Erfahrungen kann ich nur raten, was passiert ist:

Es gibt eine Komponente namens url-normalizer (mit der Konfiguration url-normalizer.xml), die einige URLs abschneidet (URL-Parameter, SessionIds, ... entfernen)

Darüber hinaus verwendet Nutch eine einmalige Einschränkung, standardmäßig wird jede URL nur einmal gespeichert.

Wenn der Normalisierer also 2 oder mehr URLs ('foo.jsp?param=value', 'foo.jsp?param=value2', 'foo.jsp?param=value3', ...) auf genau die gleiche URL ('foo.jsp') kürzt, werden sie nur einmal gespeichert. Solr wird also nur eine Teilmenge aller gecrawlten URLs sehen.

Prost

Beantwortet el 12 de Juli, 2011 von mana (5927 Punkte )

Nutch solrindex Befehl indiziert nicht alle URLs in Solr

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Nutch solrindex Befehl indiziert nicht alle URLs in Solr

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: