Ich versuche, einige Informationen aus einer PDF-Datei zu extrahieren. Ich versuche zu verwenden getpdftext.pl
von der CAM::PDF
Modul. Wenn ich einfach $~ getpdftext.pl sample.pdf
wird ein Text der PDF-Datei auf stdout ausgegeben.
Aber ich denke darüber nach, dies in eine Textdatei zu schreiben und in Perl nach erforderlichen Feldern zu parsen. Kann mir bitte jemand sagen, wie das geht?
Aber wenn ich versuche, anzurufen pdftotext.pl
In meinem Perl-Skript erhalte ich eine No such file
Fehler.
#Programm zum Extrahieren von Text aus pdf und Speichern in einer Textdatei
use PDF;
use CAM::PDF;
use CAM::PDF::PageText;
use warnings;
use IPC::System::Simple qw(system capture);
$filein = 'sample.pdf';
$fileout = 'output1.txt';
open OUT, ">$fileout" or die "error: $!";
open IN, "getpdftext.pl $filein" or die "error :$!" ;
while(<IN>)
{
print OUT $fileout;
}