Wie man PDF-, PPT- und XL-Dateien in Lucene (basierend auf Java oder Python oder PHP, eine dieser ist in Ordnung) indiziert?

Question

Wie man PDF-, PPT- und XL-Dateien in Lucene (basierend auf Java oder Python oder PHP, eine dieser ist in Ordnung) indiziert?

Gefragt el 6 de April, 2010: Wann wurde die Frage gestellt
3808 Ansichten: Anzahl der Besuche der Frage
4 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Außerdem möchte ich wissen, wie ich Metadaten beim Indexieren hinzufügen kann, um einige Parameter zu verbessern

Gefragt el 6 de April, 2010 von harsha

Answer 1

4 Antworten

Answer 2

4voto

Yuval F Punkte 20547

Es gibt mehrere Frameworks zum Extrahieren von Texten, die sich für die Lucene-Indizierung aus Rich-Text-Dateien (pdf, ppt usw.) eignen.

Eines davon ist Apache Tika, ein Unterprojekt von Lucene.
Apache POI ist ein allgemeineres Dokumentenbearbeitungsprojekt innerhalb von Apache.
Es gibt auch einige kommerzielle Alternativen.

Beantwortet el 6 de April, 2010 von Yuval F (20547 Punkte )

Answer 3

3voto

Sergii Kabashniuk Punkte 119

Sie können Apache Tika verwenden. Tika ist ein Toolkit zur Erkennung und Extraktion von Metadaten und strukturierten Textinhalten aus verschiedenen Dokumenten mithilfe vorhandener Parser-Bibliotheken.

Unterstützte Dokumentenformate

HyperText Markup Language
XML und abgeleitete Formate
Microsoft Office-Dokumentenformate
OpenDocument-Format
Portable Document Format
Electronic Publication Format
Rich Text Format
Komprimierungs- und Verpackungsformate
Textformate
Audioformate
Bildformate
Videodateiformate
Java-Klassendateien und Archive
Das mbox-Format

Der Code wird so aussehen. Reader reader = new Tika().parse(stream);

Beantwortet el 16 de April, 2010 von Sergii Kabashniuk (119 Punkte )

Answer 4

1voto

Michael Shimmins Punkte 19701

Lucene indiziert Texte und keine Dateien - Sie benötigen einen anderen Prozess, um den Text aus der Datei zu extrahieren und Lucene darüber laufen zu lassen.

Beantwortet el 6 de April, 2010 von Michael Shimmins (19701 Punkte )

Answer 5

1voto

Wolfgang Fahl Punkte 13424

Sehen https://github.com/WolfgangFahl/pdfindexer für eine Java-Lösung, die PDFBox und Apache Lucene verwendet, um die PDF-Dateien Seite für Seite in Text aufzuteilen, diese Textseiten zu indizieren und eine resultierende HTML-Indexdatei zu erstellen, die zu den Seiten in den PDF-Quellen verlinkt, indem ein entsprechender Open-Parameter verwendet wird.

Beantwortet el 12 de Kann, 2013 von Wolfgang Fahl (13424 Punkte )

Wie man PDF-, PPT- und XL-Dateien in Lucene (basierend auf Java oder Python oder PHP, eine dieser ist in Ordnung) indiziert?

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Wie man PDF-, PPT- und XL-Dateien in Lucene (basierend auf Java oder Python oder PHP, eine dieser ist in Ordnung) indiziert?

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: