3 Stimmen

Wie man feststellt, ob der Inhalt einer .pdf-Datei gescannt wird oder nicht

Ich habe also eine PDF-Datei und muss feststellen können, ob sie durch Einscannen in eine PDF-Datei erstellt wurde oder nicht. Ich versuche festzustellen, ob es eine PDF-Datei ist, die ich als Text anzeigen kann oder nicht.

Ich habe PHP und Zend zur Verfügung. Ich denke, ich könnte die Zend-Software verwenden.

$pdf->properties['Producer']

aber ich bin mir nicht 100%ig sicher.

Gibt es eine Möglichkeit, sicher zu sein, mit welcher Art von .pdf-Datei ich es zu tun habe?

3voto

Pekka Punkte 429407

Das hört sich schwierig an. Es gibt eine ganze Reihe verschiedener "Hersteller"-IDs, von denen viele die Erstellung von PDF-Dateien aus beliebigen Quellen unterstützen, seien es gescannte Dokumente, Faxe, Textverarbeitungsprogramme oder was auch immer. Es gibt so viele Möglichkeiten, eine PDF-Datei zu erstellen, dass Sie nie zurückverfolgen können, was woher kam.

Wenn Sie herausfinden wollen, ob Sie es als Text anzeigen können oder nicht, warum versuchen Sie dann nicht, einen tatsächlichen Text daraus zu extrahieren? Wenn es gescannt ist (oder eine andere Art von eingebettetem Bild), sollte es keinen oder nur sehr wenig Textinhalt haben. Aber dann gibt es ja auch noch OCR-Programme, die ein gescanntes PDF mit maschinenlesbarem Text erstellen. Wie wollen Sie damit umgehen?

Welches Ziel verfolgen Sie damit letztlich?

0voto

JohnH Punkte 1749

Um festzustellen, ob die PDF-Datei gescannt wurde, öffnen Sie sie mit Adobe Acrobat Reader.

Prüfen Sie, ob Sie Text auswählen können. Dies bedeutet, dass das Dokument NICHT gescannt wurde.

enter image description here

Wenn Sie jedoch beim Versuch, Text auszuwählen, zu einem grafischen Auswahlfeld zurückkehren, bedeutet dies, dass das Dokument gescannt wurde.

enter image description here

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X