419 Stimmen

Python-Modul zur Konvertierung von PDF in Text

Gibt es ein Python-Modul, um PDF-Dateien in Text zu konvertieren? Ich habe versucht ein Stück Code in Activestate gefunden, das pypdf verwendet, aber der erzeugte Text hatte keine Leerzeichen dazwischen und war unbrauchbar.

1voto

Decora Punkte 21

Ich habe verwendet pdftohtml mit dem -xml Argument, lesen Sie das Ergebnis mit subprocess.Popen() die Ihnen x-Koordinate, y-Koordinate, Breite, Höhe und Schriftart für jede Schnipsel des Textes in der PDF-Datei. Ich denke, dass "evince" dies wahrscheinlich auch verwendet, da die gleichen Fehlermeldungen ausgegeben werden.

Wenn Sie spaltenförmige Daten verarbeiten müssen, wird es etwas komplizierter, da Sie einen Algorithmus entwickeln müssen, der zu Ihrer PDF-Datei passt. Das Problem ist, dass die Programme, die PDF-Dateien erstellen, den Text nicht unbedingt in einem logischen Format anordnen. Man kann einfache Sortieralgorithmen ausprobieren, und manchmal funktioniert das auch, aber es kann kleine "Nachzügler" und "Ausreißer" geben, also Textteile, die nicht in der Reihenfolge angeordnet werden, in der man sie erwartet. Sie müssen also kreativ werden.

Ich habe etwa 5 Stunden gebraucht, um eine Lösung für die pdf-Dateien zu finden, an denen ich gearbeitet habe. Aber jetzt funktioniert es ziemlich gut. Viel Glück!

0voto

Andrey Shipilov Punkte 1878

Diese Lösung habe ich heute gefunden. Sie funktioniert bei mir hervorragend. Sogar die Umwandlung von PDF-Seiten in PNG-Bilder. http://www.swftools.org/gfx_tutorial.html

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X