Ich habe einen Nutch-Index, der von einer bestimmten Domain gecrawlt wurde, und ich verwende den Befehl solrindex, um die gecrawlten Daten in meinen Solr-Index zu übertragen. Das Problem ist, dass anscheinend nur einige der gecrawlten URLs tatsächlich in Solr indexiert werden. Ich habe den Nutch-Crawl in eine Textdatei ausgeben lassen, damit ich die gecrawlten URLs sehen kann, aber wenn ich nach einigen der gecrawlten URLs in Solr suche, erhalte ich keine Ergebnisse.
Befehl, mit dem ich das Nutch Crawl durchführe: bin/nutch crawl urls -dir crawl -depth 20 -topN 2000000
Dieser Befehl wird erfolgreich ausgeführt und die Ausgabe zeigt URLs an, die ich im resultierenden Solr-Index nicht finden kann.
Befehl, mit dem ich die gecrawlten Daten an Solr schicke: bin/nutch solrindex [http://localhost:8983/solr/](http://localhost:8983/solr/) crawl/crawldb crawl/linkdb crawl/segments/*
Die Ausgabe für diesen Befehl besagt, dass er ebenfalls erfolgreich abgeschlossen wird, es scheint also kein Problem mit dem vorzeitigen Beenden des Prozesses zu sein (was ich anfangs dachte).
Eine letzte Sache, die ich seltsam finde, ist, dass die gesamte Nutch- und Solr-Konfiguration identisch ist mit einer Konfiguration, die ich zuvor auf einem anderen Server verwendet habe und bei der ich keine Probleme hatte. Es sind buchstäblich die gleichen Konfigurationsdateien, die auf diesen neuen Server kopiert wurden.
TL;DR: Ich habe eine Reihe von URLs erfolgreich in Nutch gecrawlt, aber wenn ich den solrindex-Befehl ausführe, werden nur einige von ihnen an Solr übertragen. Bitte helfen Sie mir.
UPDATE: Ich habe all diese Befehle erneut ausgeführt, und die Ausgabe behauptet immer noch, dass alles einwandfrei funktioniert. Ich habe alle Blocker für die Indizierung untersucht, die mir einfallen, aber immer noch kein Glück. Die URLs, die an Solr übergeben werden, sind alle aktiv und öffentlich zugänglich, also ist das kein Problem. Ich bin wirklich schlagen meinen Kopf gegen eine Wand hier so würde einige Hilfe zu lieben.