2 Stimmen

Hat jemand mit einer PHP-API gearbeitet, um die Crawl-Ergebnisse von "Nutch Search Engine" zu lesen?

Ich habe die 'Nutch-Suchmaschine' zum Durchsuchen von Websites eingerichtet. Jetzt muss ich eine PHP-API schreiben, um mit der Nutch-Suchmaschine zu kommunizieren. Ich muss 2 Dinge tun:

  1. mit Hilfe eines PHP-Skripts muss ich Nutch mitteilen, welche URLs gecrawlt werden sollen (dafür habe ich einige Hinweise von http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2.html

  2. Mit einem PHP-Skript muss ich die Crawl-Ergebnisse aus der Nutch-Crawl-DB abrufen. Ich scheine keine Hilfe dazu zu finden (oder ich bin vielleicht zu dumm, um die Antwort zu sehen, wenn sie schon da ist :()

Wenn jemand eine PHP-API zum Lesen von Nutch-Crawl-Ergebnissen verwendet hat, bitte ich um Hinweise.

Ich warte verzweifelt auf Hilfe.

0voto

millebii Punkte 1257

Für Ihre Frage #1 müssen Sie diese URLs in den Crawler einspeisen. Relativ einfach: + Erstellen Sie eine Datei mit den URLs, die Sie hinzufügen möchten + Geben Sie den Befehl inject mit diesen URLs aus (eventuell müssen Sie auf das Ende des vorherigen Crawl-/Fetch-/Index-Zyklus warten) + Starten Sie einen neuen Crawl

Hinweis: Sie müssen sicherstellen, dass die URLs nicht ebenfalls herausgefiltert werden.

0voto

Augiwan Punkte 2272

Ich bin auch auf der Suche nach einer wirklich guten Möglichkeit, dies zu tun. Aber ab jetzt, Im mit einer JSP-API, um Suchergebnisse anzuzeigen. Diese sollte Ihnen den Einstieg erleichtern.

Sie können alternativ php verwenden, um Ihre Ergebnisse als JSON-Objekte zu erhalten.

Um Sie in diese Richtung zu führen, gibt es eine interessante Seite für den Einstieg in JSON mit Jquery. Googeln Sie nach anderen Tutorials zu JSON. Es gibt eine Menge von ihnen.

0voto

lsroudi Punkte 81

Sie müssen Solr für die Suche verwenden oder eine andere Suchplattform, Nutch ist nur ein Crawler, die Idee ist einfach:

  • \==> Nuss zum Krabbeln
  • \==> Solr zum Erstellen eines Index
  • \==> Erstellen einer Schnittstelle für die Suche innerhalb des Indexes (Schritt 2). SolariumBundle für diesen Schritt

-1voto

millebii Punkte 1257

Zu #2: Nutch ist in JSP und Java geschrieben, ich kenne keine PHP-Implementierung (falls Sie eine finden, bin ich interessiert). Sie müssen also ein AJAX- oder SOAP-ähnliches Kommunikationsschema zwischen Ihrem PHP-Skript und dem Nutch-Server erstellen. Haben Sie versucht, auf der Nutch-Mailingliste Hilfe zu bekommen?

0 Stimmen

Es ist nicht ansewr! Sie sollten es auf Kommentar stellen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X