Probleme beim Lesen von Text aus einer PDF-Datei in Perl

Question

Probleme beim Lesen von Text aus einer PDF-Datei in Perl

Gefragt el 23 de Dezember, 2011: Wann wurde die Frage gestellt
1467 Ansichten: Anzahl der Besuche der Frage
0 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich versuche, den Textinhalt einer pdf-Datei in eine Perl-Variable zu lesen. Aus anderen SO-Fragen/Antworten entnehme ich, dass ich Folgendes verwenden muss CAM::PDF . Hier ist mein Code:

#!/usr/bin/perl -w

use CAM::PDF;
my $pdf = CAM::PDF->new('1950-01-01.pdf');
print $pdf->numPages(), " pages\n\n";

my $text = $pdf->getPageText(1);
print $text, "\n";

Ich habe versucht, dies unter diese pdf-Datei . Es werden keine Fehler von Perl gemeldet. Die erste Druckanweisung funktioniert; sie gibt "2 Seiten" aus, was der korrekten Anzahl von Seiten in diesem Dokument entspricht.

Die nächste Druckanweisung gibt nichts Lesbares zurück. So sieht die Ausgabe in Emacs aus:

2 pages

^A^B^C^D^E^C^F^D^G^H
^D^A^K^L^C^M^D^N^C^M^O^D^P^C^Q^Q^C      ^D^R^K^M^O^D ^A^B^C^D^E
^F^G^G^H^E
^K^L
^M^N^E^O^P^E^O^Q^R^S^E
.... more lines with similar codes ....

Gibt es etwas, was ich tun kann, damit das funktioniert? Ich kenne mich mit PDF-Dateien nicht so gut aus, aber ich dachte, da ich den Text mit Acrobat leicht aus der PDF-Datei kopieren und einfügen kann, muss er als Text und nicht als Bild erkannt werden, also hoffte ich, dass dies bedeutet, dass ich ihn mit Perl extrahieren kann.

Jeder Hinweis wäre sehr willkommen.

Gefragt el 23 de Dezember, 2011 von itzy

Answer 1

0 Antworten

Probleme beim Lesen von Text aus einer PDF-Datei in Perl

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Probleme beim Lesen von Text aus einer PDF-Datei in Perl

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: