Python-Modul zur Konvertierung von PDF in Text

Question

Python-Modul zur Konvertierung von PDF in Text

Gefragt el 25 de August, 2008: Wann wurde die Frage gestellt
420249 Ansichten: Anzahl der Besuche der Frage
2 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Gibt es ein Python-Modul, um PDF-Dateien in Text zu konvertieren? Ich habe versucht ein Stück Code in Activestate gefunden, das pypdf verwendet, aber der erzeugte Text hatte keine Leerzeichen dazwischen und war unbrauchbar.

Gefragt el 25 de August, 2008 von cnu

Answer 1

2 Antworten

Answer 2

1voto

Decora Punkte 21

Ich habe verwendet pdftohtml mit dem -xml Argument, lesen Sie das Ergebnis mit subprocess.Popen() die Ihnen x-Koordinate, y-Koordinate, Breite, Höhe und Schriftart für jede Schnipsel des Textes in der PDF-Datei. Ich denke, dass "evince" dies wahrscheinlich auch verwendet, da die gleichen Fehlermeldungen ausgegeben werden.

Wenn Sie spaltenförmige Daten verarbeiten müssen, wird es etwas komplizierter, da Sie einen Algorithmus entwickeln müssen, der zu Ihrer PDF-Datei passt. Das Problem ist, dass die Programme, die PDF-Dateien erstellen, den Text nicht unbedingt in einem logischen Format anordnen. Man kann einfache Sortieralgorithmen ausprobieren, und manchmal funktioniert das auch, aber es kann kleine "Nachzügler" und "Ausreißer" geben, also Textteile, die nicht in der Reihenfolge angeordnet werden, in der man sie erwartet. Sie müssen also kreativ werden.

Ich habe etwa 5 Stunden gebraucht, um eine Lösung für die pdf-Dateien zu finden, an denen ich gearbeitet habe. Aber jetzt funktioniert es ziemlich gut. Viel Glück!

Beantwortet el 12 de November, 2010 von Decora (21 Punkte )

Answer 3

0voto

Andrey Shipilov Punkte 1878

Diese Lösung habe ich heute gefunden. Sie funktioniert bei mir hervorragend. Sogar die Umwandlung von PDF-Seiten in PNG-Bilder. http://www.swftools.org/gfx_tutorial.html

Beantwortet el 31 de Januar, 2011 von Andrey Shipilov (1878 Punkte )

Python-Modul zur Konvertierung von PDF in Text

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Python-Modul zur Konvertierung von PDF in Text

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: