4 Stimmen

Probleme beim Lesen von Text aus einer PDF-Datei in Perl

Ich versuche, den Textinhalt einer pdf-Datei in eine Perl-Variable zu lesen. Aus anderen SO-Fragen/Antworten entnehme ich, dass ich Folgendes verwenden muss CAM::PDF . Hier ist mein Code:

#!/usr/bin/perl -w

use CAM::PDF;
my $pdf = CAM::PDF->new('1950-01-01.pdf');
print $pdf->numPages(), " pages\n\n";

my $text = $pdf->getPageText(1);
print $text, "\n";

Ich habe versucht, dies unter diese pdf-Datei . Es werden keine Fehler von Perl gemeldet. Die erste Druckanweisung funktioniert; sie gibt "2 Seiten" aus, was der korrekten Anzahl von Seiten in diesem Dokument entspricht.

Die nächste Druckanweisung gibt nichts Lesbares zurück. So sieht die Ausgabe in Emacs aus:

2 pages

^A^B^C^D^E^C^F^D^G^H
^D^A^K^L^C^M^D^N^C^M^O^D^P^C^Q^Q^C      ^D^R^K^M^O^D ^A^B^C^D^E
^F^G^G^H^E
^K^L
^M^N^E^O^P^E^O^Q^R^S^E
.... more lines with similar codes ....

Gibt es etwas, was ich tun kann, damit das funktioniert? Ich kenne mich mit PDF-Dateien nicht so gut aus, aber ich dachte, da ich den Text mit Acrobat leicht aus der PDF-Datei kopieren und einfügen kann, muss er als Text und nicht als Bild erkannt werden, also hoffte ich, dass dies bedeutet, dass ich ihn mit Perl extrahieren kann.

Jeder Hinweis wäre sehr willkommen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X