Ich möchte gescannten Text (einfarbig oder wenige Farben) komprimieren und in pdf-Dateien (vielleicht djvu) speichern. Ich erinnere mich, dass ich mit Windows/Acrobat und "ZRLE" komprimierten monochromen Tiff-Dateien, die in pdf-Dateien eingebettet sind, sehr gute Ergebnisse erzielt habe. Der Algorithmus war, soweit ich mich erinnere, verlustfrei. Jetzt suche ich einen Weg, um gute Ergebnisse unter Linux zu erzielen. Es sollte speichersparend sein und keine Verluste verursachen (der Verlust von Farben macht mir nichts aus, aber ich möchte z.B. keine Jpeg-Komprimierung, die zu verrauschten Ergebnissen bei Textscans führen würde). Ich brauche es für eine Stapelkonvertierung, also dachte ich an den ImageMagick-Befehl convert. Aber welches Ausgabeformat sollte ich verwenden, damit ich gute Ergebnisse erhalte und es in pdf-Dateien einbetten kann (z. B. mit pdflatex)? Oder ist es generell besser, djvu-Dateien zu verwenden?
Antworten
Zu viele Anzeigen?jbig2enc Encoder für Bilder mit jbig2-Kompression, wurde ursprünglich für GoogleBooks geschrieben von Adam Langley
https://github.com/agl/jbig2enc
Ich habe es geforkt, um die neuesten Verbesserungen von Rubypdf und anderen einzubeziehen
https://github.com/DingoDog/jbig2enc
Ich habe auch mehrere Binärdateien von jbig2enc para Welpen-Linux (es kann auch auf anderen Distributionen funktionieren)
DJVU ist keine schlechte Wahl, aber wenn Sie aus Kompatibilitätsgründen bei PDF bleiben wollen, sollten Sie sich vielleicht mit verlustfrei JBIG2 Kompression.
Zitat aus Wikipedia:
Insgesamt ist der von JBIG2 zur Komprimierung von Text verwendete Algorithmus sehr ähnlich dem JB2-Komprimierungsschema, das im DjVu-Dateiformat zur Kodierung von Binärbilder.