2 Stimmen

Wie extrahiere ich strukturierte Informationen aus einer pdf-Datei in Java?

Ich brauche, um Tabelle aus der PDF-Datei zu extrahieren, ich weiß, es ist nicht im Tabellenformat gespeichert, aber ich möchte Student Ergebnis von pdf in Java zu lesen, bitte helfen, wenn jemand weiß.... danke

3voto

Mat Punkte 195740

Sie sollten dafür einen PDF-Parser verwenden. Schau dir das an Liste der quelloffenen PDF-Bibliotheken für Java .

3voto

mark stephens Punkte 3201

Einige PDF-Dateien enthalten strukturierten PDF-Text (http://www.jpedal.org/PDFblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structured-content/). Ist dies nicht der Fall, liegt es an der Heuristik des Parsers, dies zu erraten und eine Struktur hinzuzufügen.

Die PdfBox-Entwickler haben viel an den Tabellen gearbeitet, aber es wird nie perfekt sein.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X