Außerdem möchte ich wissen, wie ich Metadaten beim Indexieren hinzufügen kann, um einige Parameter zu verbessern
Antworten
Zu viele Anzeigen?Es gibt mehrere Frameworks zum Extrahieren von Texten, die sich für die Lucene-Indizierung aus Rich-Text-Dateien (pdf, ppt usw.) eignen.
- Eines davon ist Apache Tika, ein Unterprojekt von Lucene.
- Apache POI ist ein allgemeineres Dokumentenbearbeitungsprojekt innerhalb von Apache.
- Es gibt auch einige kommerzielle Alternativen.
Sie können Apache Tika verwenden. Tika ist ein Toolkit zur Erkennung und Extraktion von Metadaten und strukturierten Textinhalten aus verschiedenen Dokumenten mithilfe vorhandener Parser-Bibliotheken.
Unterstützte Dokumentenformate
- HyperText Markup Language
- XML und abgeleitete Formate
- Microsoft Office-Dokumentenformate
- OpenDocument-Format
- Portable Document Format
- Electronic Publication Format
- Rich Text Format
- Komprimierungs- und Verpackungsformate
- Textformate
- Audioformate
- Bildformate
- Videodateiformate
- Java-Klassendateien und Archive
- Das mbox-Format
Der Code wird so aussehen. Reader reader = new Tika().parse(stream);
Sehen https://github.com/WolfgangFahl/pdfindexer für eine Java-Lösung, die PDFBox und Apache Lucene verwendet, um die PDF-Dateien Seite für Seite in Text aufzuteilen, diese Textseiten zu indizieren und eine resultierende HTML-Indexdatei zu erstellen, die zu den Seiten in den PDF-Quellen verlinkt, indem ein entsprechender Open-Parameter verwendet wird.