4 Stimmen

Wie man PDF-, PPT- und XL-Dateien in Lucene (basierend auf Java oder Python oder PHP, eine dieser ist in Ordnung) indiziert?

Außerdem möchte ich wissen, wie ich Metadaten beim Indexieren hinzufügen kann, um einige Parameter zu verbessern

4voto

Yuval F Punkte 20547

Es gibt mehrere Frameworks zum Extrahieren von Texten, die sich für die Lucene-Indizierung aus Rich-Text-Dateien (pdf, ppt usw.) eignen.

  • Eines davon ist Apache Tika, ein Unterprojekt von Lucene.
  • Apache POI ist ein allgemeineres Dokumentenbearbeitungsprojekt innerhalb von Apache.
  • Es gibt auch einige kommerzielle Alternativen.

3voto

Sergii Kabashniuk Punkte 119

Sie können Apache Tika verwenden. Tika ist ein Toolkit zur Erkennung und Extraktion von Metadaten und strukturierten Textinhalten aus verschiedenen Dokumenten mithilfe vorhandener Parser-Bibliotheken.

Unterstützte Dokumentenformate

  • HyperText Markup Language
  • XML und abgeleitete Formate
  • Microsoft Office-Dokumentenformate
  • OpenDocument-Format
  • Portable Document Format
  • Electronic Publication Format
  • Rich Text Format
  • Komprimierungs- und Verpackungsformate
  • Textformate
  • Audioformate
  • Bildformate
  • Videodateiformate
  • Java-Klassendateien und Archive
  • Das mbox-Format

Der Code wird so aussehen. Reader reader = new Tika().parse(stream);

1voto

Michael Shimmins Punkte 19701

Lucene indiziert Texte und keine Dateien - Sie benötigen einen anderen Prozess, um den Text aus der Datei zu extrahieren und Lucene darüber laufen zu lassen.

1voto

Wolfgang Fahl Punkte 13424

Sehen https://github.com/WolfgangFahl/pdfindexer für eine Java-Lösung, die PDFBox und Apache Lucene verwendet, um die PDF-Dateien Seite für Seite in Text aufzuteilen, diese Textseiten zu indizieren und eine resultierende HTML-Indexdatei zu erstellen, die zu den Seiten in den PDF-Quellen verlinkt, indem ein entsprechender Open-Parameter verwendet wird.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X