Kennen Sie eine Java-Bibliothek, mit der ich den Text eines PDF-Dokuments als Zeichenfolge extrahieren kann und die auch alle leeren Zeilen und leeren Bereiche aus dem Originaldokument erhält (wie sie im PDF-Dokument erscheinen)?
Ich verwende derzeit die PDFTextStripper-Klasse aus der PDFBox-0.7.3-Bibliothek und verwende die getText()-Methode, die das Dokument als Zeichenfolge zurückgibt, jedoch auch alle leeren Zeilen, Tabs und leeren Räume zwischen dem Text entfernt. Die Zeilenumbrüche werden beibehalten, sodass ich die Struktur des Dokuments erkennen kann. Mir ist jedoch wichtig, auch die anderen leeren Stellen zu behalten. Dies ist das Standardverhalten von getText(), und es scheint nicht möglich zu sein, es so zu ändern, dass die leeren Stellen im Text erhalten bleiben (ich konnte keine Methode in der API für diesen Zweck finden).
Vielen Dank für Ihre Hilfe.