Gibt es ein Python-Modul, um PDF-Dateien in Text zu konvertieren? Ich habe versucht ein Stück Code in Activestate gefunden, das pypdf verwendet, aber der erzeugte Text hatte keine Leerzeichen dazwischen und war unbrauchbar.
Antworten
Zu viele Anzeigen?Ich habe verwendet pdftohtml
mit dem -xml
Argument, lesen Sie das Ergebnis mit subprocess.Popen()
die Ihnen x-Koordinate, y-Koordinate, Breite, Höhe und Schriftart für jede Schnipsel des Textes in der PDF-Datei. Ich denke, dass "evince" dies wahrscheinlich auch verwendet, da die gleichen Fehlermeldungen ausgegeben werden.
Wenn Sie spaltenförmige Daten verarbeiten müssen, wird es etwas komplizierter, da Sie einen Algorithmus entwickeln müssen, der zu Ihrer PDF-Datei passt. Das Problem ist, dass die Programme, die PDF-Dateien erstellen, den Text nicht unbedingt in einem logischen Format anordnen. Man kann einfache Sortieralgorithmen ausprobieren, und manchmal funktioniert das auch, aber es kann kleine "Nachzügler" und "Ausreißer" geben, also Textteile, die nicht in der Reihenfolge angeordnet werden, in der man sie erwartet. Sie müssen also kreativ werden.
Ich habe etwa 5 Stunden gebraucht, um eine Lösung für die pdf-Dateien zu finden, an denen ich gearbeitet habe. Aber jetzt funktioniert es ziemlich gut. Viel Glück!
Diese Lösung habe ich heute gefunden. Sie funktioniert bei mir hervorragend. Sogar die Umwandlung von PDF-Seiten in PNG-Bilder. http://www.swftools.org/gfx_tutorial.html
- See previous answers
- Weitere Antworten anzeigen