Grösse der gescannten PDF-Dateien

rhHeini · Beitrag von **rhHeini** » 19.11.2018 20:33:02

Seit kurzen habe ich einen Scanner der auch von Sane unterstützt wird, einen Canon Lide 220. Im Vergleich zum alten Scanprogramm das unter XP in der VBox lief, sind die gescannten Dateien (im PDF-Format) mit xsane (Stretch) jetzt deutlich grösser.

Gibt es da irgendwo einen Trick/ein Tool das die Datein besser komprimiert?

Gruß, Rolf

QT · Beitrag von QT » 19.11.2018 20:48:32

Hallo Rolf,

welche Scaneinstellungen nutzt Du denn zum Scannen von Dokumenten nach PDF?

Ich archiviere meine Dokumente als PDF mit den Settings Strichzeichnung und 200 dpi und die erstellten PDF Dateien haben eine angenehm kleine Größe.

Grüße,
QT

Michahe · Beitrag von **Michahe** » 20.11.2018 07:41:34

Hallo Rolf,
ich hatte ein ähnliches Problem mit XSane allerdings in die andere Richtung (bessere Auflösung) und nicht unter DEBIAN. Folgende Einstellung hat mir ermöglicht, die Scan-Auflösung überhaupt einstellbar zu machen (war nach Installation ausgegraut (nicht zugreifbar)):

XSane Scanauflösung einstellbar machen: Menu > Fenster > Zeige erweiterte Optionen (=Strg-6) > "Bind X-Y resolution" ABwählen

debianoli · Beitrag von **debianoli** » 20.11.2018 09:07:44

rhHeini hat geschrieben:
19.11.2018 20:33:02
...jetzt deutlich grösser.

Was bedeutet "deutlich größer" bei dir in Zahlen?

Ansonsten kann ich auch

gscan2pdf zum Scannen empfehlen. Da kannst du zB die dpi-Zahl reduzieren etc.

Beitrag von **KBDCALLS** » 20.11.2018 10:11:44

Geht doch bei Xsane auch.

debianoli · Beitrag von **debianoli** » 20.11.2018 10:17:55

Ja, aber gscan2pdf finde ich von der Bedienung her sehr viel einfacher. Geschmackssache

Emess · Beitrag von **Emess** » 21.11.2018 15:05:41

Ist zwar nicht die feine Art. Aber wenn ich mal ein riesen-PDF rausbekomme, drucke ich das Dokument einfach nochmal als PDF

Beitrag von **KBDCALLS** » 21.11.2018 17:07:45

Wenn ich mit doppelter Aufösung scanne dann wird das Bild nicht nur doppelt so groß sondern 4 mal. Und in einem gescannten PDF ist auch nichts anderes. Dann kommts auch noch drauf an welches Format das darin enthaltenen Bild hat.

Nachtrag ein PDF mit 200 DPI hat 4,7 MB mit zlib komprimiert . unkompimiert rund 11,6 MB.

rhHeini · Beitrag von **rhHeini** » 23.11.2018 21:13:13

Vielen Dank für die Kommentare. Der Hinwies auf gscan war sehr nützlich.

Ich habe nebenbei einen Vergleichstest mit einem Statusblatt aus meinem Farbdrucker gefahren. Alle Scans in Farbe, in den Dateinamen sind die einstellbaren Parameter mit enthalten.

1stes Versuchsobjekt ein MUI von Hp in der Firma. Da kann man Hohe/mittlere/niedrige Qualität und DPI einstellen. Wird per Mail als PDF versendet.

Code: Alles auswählen

543750 Nov 23 16:56 Status-HPMUI-Farbe-Large-300.pdf
543750 Nov 23 16:57 Status-HPMUI-Farbe-Large-400.pdf
140883 Nov 23 16:58 Status-HPMUI-Farbe-Medium-150.pdf

Da hab ich wohl beim Abspeichern zwei mal die gleiche Datei geschrieben. In der Mail war die 400dpi-Datei > 800k gross.

2tes Versuchsobjekt mein alter Scanner Lide 600F in einer XP-VM mit dem Canon-Scantool. Da kann man den Mode und die DPI einstellen.

Code: Alles auswählen

507082 Nov 22 20:00 Status-600F-Farb-300.PDF
875010 Nov 22 19:59 Status-600F-Farb-400.PDF

Der 220 geht mit dem alten Tool nicht, und die neue SW gibt es bei Canon nur als Webinstaller, die VM hat aber kein Netzzugang mehr. Da hab ich leider keine Vergleichsdaten.

Zuletzt der Lide 220 mit xsane und gscan:

Code: Alles auswählen

 4510700 Nov 21 22:40 Status-xsane-8-Farbe-voll-150.pdf
17981149 Nov 21 22:37 Status-xsane-8-Farbe-voll-300.pdf
   79845 Nov 21 22:38 Status-xsane-8-Strich-300.pdf
  257275 Nov 21 01:00 Status-gscan-8-Farbe-150.pdf
  876740 Nov 21 01:00 Status-gscan-8-Farbe-300.pdf
 3533842 Nov 21 01:00 Status-gscan-8-Farbe-600.pdf

Daraus muss ich schliessen das xsane nicht oder unzureichend komprimiert. Ich habe auch nichts gesehen wo ich da dran drehen kann. gscan ist nicht ganz so effektive wie das MUI oder der alte 600F unter XP, liefert aber für mich akzeptable Grössen.

Schönes Wochenende, Rolf

Beitrag von **wanne** » 24.11.2018 22:33:45

Nachdem keiner eine eine Schnelle Antwort hat
So jetzt doch eine etwas ausführlichere Antwort:
Zuersmal machst du dir es natürlich extrem schwer, wenn u deine Bilder in PDFs verpackst. Damit man da vernüftig analysieren kann bzw. ansatzweise mit arbeiten kann musst du zuerst mal die Bilder wieder auspacken. Ich würde dir stark empfehlen. Erstmal in ein echtes Bildformat zu scannen und wenn überhaupt (eventuell nach Nachbearbeitung) in ein PDF zu verpacken.
Hier wie du aus den PDFs die Bilder bekommst (braucht

poppler-utils):

Code: Alles auswählen

pdfimages -all scan.pdf scan

Was da dann drin ist, kannst du dir damit angucken, was da wirklich drin ist.
Das kannst du damit (braucht

imagemagick):

Code: Alles auswählen

file bild
identify bild

Dann kannst dir mal angucken was dir die verschiedenen Tools für Bilder produzieren.
Wenn du postest, was du da haben willst, kann ich dir sagen, wie du das mit xsane erstellst. (Eventuell kannst du die Bilder auch mal in die Galerie hochladen.)

nicht oder unzureichend komprimiert.

Man kann es vermutlich auch so sehen:
* bessere Qualität produziert
* von mehr Softwre gelesen werden kann.

Im Allgemeinen: Wenn du folgende Ziele erreichen willst:
Wenn du möglichst kleine Bilder haben willst: Nimm WebP, jpeg, PDF-JPXDecode (JPEG2000 in PDF), PDF-DCTDecode (JPEG in pdf).
Wenn du möglichst gute Qualität haben willst (lossless): Nimm png, WebP im losslesss mode, PDF-LZWDecode (png in pdf).
Wenn du möglichst überall geöffnet werden können willst: nimm jpeg, png, PDF-JPXDecode oder PDF-LZWDecode.
Bester Kompromiss aus Größe und Qualität: lossy WebP
Wenn du es in einem PDF haben musst: PDF-JPXDecode PDF-LZWDecode oder JBIG2Decode

Daneben gilt natürlich immer: Mehr Auflösung und mehr Farben gibt größere Bilder.
Bits pro Farbe und Pixel gibt es so in der Reihenfolge:
WebP << jpeg2000 < jpeg (je nach Art stark unterschiedlich. Unter dem Namen jpeg verstecken sich ein ganzer Haufen formate) < PDF-JPXDecode < JBIG2Decode < PDF-DCTDecode << png << PDF-LZWDecode

Beitrag von **KBDCALLS** » 24.11.2018 22:52:09

Gibt es da noch ne andere Möglicheit um ein Bild aus einem PDf zu extrahieren.

Code: Alles auswählen
```
pdfimages -all seite0010.pdf seite10
```

Das ergibt bei mir ein png Bild.

Code: Alles auswählen
```
pdfimages  seite0010.pdf seite11
```

Und da kommt ein ppm raus (unkomprimiert.)

Code: Alles auswählen

file seite11-000.ppm 
seite11-000.ppm: Netpbm image data, size = 1696 x 2338, rawbits, pixmap

http://netpbm.sourceforge.net/doc/ppm.html

Beitrag von **wanne** » 24.11.2018 23:34:54

Problem ist halt, dass PDF eigene Bild-Formate definiert.
Du hat da per Definition halt ein Stream, den du über Filter laufen lässt, damit da Pixel raus kommen.
Wie du das dann aus den Pixeln ein passendes Bildformat bekommst, ist Sache des Tools.
Größtenteils, sind diese Filter nur copy und Pastes aus den jeweiligen Bildstandards ( gzip, TIFF, gif, jpeg, jpeg2000, fax, png ) aber eben keine vollständigen Kopieen. exif-Metadaten kennt das zeug im pdf selbstverständlich nicht. Genau so wenige wie die meisten der unüblichen Kompressionen aus TIFF.
Es liegt natürlich nahe, das Bild in ein möglichst ähnliches Format zu konvertieren (damit man Teile ohne oder mit wenig Nachbearbeitung übernehmen kann) aber am Ende ist es durch eine 1:1 Kopie nicht vollständig getan.
Entsprechend unterschiedlich sind die Ergenbnisse. Insbesondere bei den lossless Formaten ist das nicht so ganz offensichtlich was man da am besten nimmt sind ja alles bijektive Transformationen.

Prinzipiell würdest du halt eigentlich ein Analysetool für PDFs brauchen, damit du genau siehst, was da drin steckt. Ich kenne aber keines, das problemlos unter einem aktuellen Debian zum laufen zu bekommen ist.

Beitrag von **wanne** » 25.11.2018 03:11:12

Hier doch noch ein vermutlich sehr unzuverlässiges script, dass bestimmt, was für Bilder da in der PDF hängen:

Code: Alles auswählen

#!/bin/sh
dumppdf -a "$1" | grep -B 2 '<value><literal>Image' | grep 'value><literal' | grep -v Image

debianoli · Beitrag von **debianoli** » 25.11.2018 09:53:10

Das es dem TE wohl auch um eine einfache Benutzbarkeit geht, würde ich noch das kommerzielle vuescan (ca. 70.- Euro) in den Raum werfen. Das Programm bietet bei sehr vielen Scannern mehr Funktionen als sane und hat dazu umfangreiche Einstellmöglichkeiten.

Ich nutze vuescan zB. mit einem Canoscan 9000F zum Einscannen von Dias. Der Scanner läuft auch mit gscan etc., kann aber damit keine Dias. Vuescan kann das perfekt.

rhHeini · Beitrag von **rhHeini** » 25.11.2018 15:53:02

Der Scanner dient bei mir im wesentlichen um wichtige Papierdokumente und Korrespondenz einscannen und ablegen zu können. Mir ist eigentlich ziemlich egal wie und in welchen Format der Scan gespeichert wird. Eingebettet in ein PDF hat sich halt als ein gewisser Standard etabliert.

Ich habe xsane noch mal durchsucht und tatsächlich erweiterte Eigenschaften gefunden in denen aber schon eine Komprimierung hinterlegt ist (speichere PDF zlib komprimiert). gscan wird wohl mein Tool der Wahl sein da es besser als xsane komprimiert. Weiter ins Detail will ich da gar nicht gehen.

Schönen Sonntag, Rolf

Beitrag von **KBDCALLS** » 25.11.2018 19:28:34

Das Perlgewürge funktioniert aber auch nicht richtig. Da ist dan aber schon Xsane lieber , denn das tut das was es soll. Und ob ein PDF jetzt 4 MB , 8MB oder größer ist sollte bei den heutigen Festplattengrößen auch nicht mehr so die große Rolle spielen.

Beitrag von **wanne** » 26.11.2018 11:40:47

rhHeini hat geschrieben:
25.11.2018 15:53:02
in denen aber schon eine Komprimierung hinterlegt ist (speichere PDF zlib komprimiert).

Dann werden die Bilder vermutlich mit den Filter "FlateDecode" komprimiert. Der entspricht in Teilen wohl png.
Hat den Vorteil das das lossless ist (also wirklich genau das angezeigt wird, was gescannt wurde) ist aber auf der anderen Seite eher groß. (Vor allem auch weil jedes Rauschen das der Scanner produziert mit abgespeichert wird.)
Wenn du WebM jpeg2000 oder jpeg (oder DCTDecode) nutzt wirst du um Größenordnungen kleinere Dateien bekommen.

Eingebettet in ein PDF hat sich halt als ein gewisser Standard etabliert.

Wobei das Standard nur für den Namen gilt. Es gibt derartig viele PDF-Formate und Arten die zu erstellen, dass da ganz gerne eigentlich halt nichts gleich ist als die Dateiendung.

debianoli · Beitrag von **debianoli** » 26.11.2018 14:50:59

KBDCALLS hat geschrieben:
25.11.2018 19:28:34
Das Perlgewürge funktioniert aber auch nicht richtig. Da ist dan aber schon Xsane lieber , denn das tut das was es soll.

Meinst du gscan2pdf? Was geht bei dem Programm nicht richtig?

Ich nehme das lieber als xsane, da ich die Oberfläche besser und intuitiver in der Bedienung finde. Für das Scannen von Dokumenten zur Archivierung als PDF reicht das Dicke. Für spezielle Scannereien nehme ich Vuescan.

Beitrag von **KBDCALLS** » 26.11.2018 16:10:38

Will ich damit Scannen sind alle Reiter außer Seitenoptionen erst einmal leer . Also Scanmodus Erweitert usw. Und das ist nicht gerade prickelnd. Entweder muß ich eine Seite scannen dann erscheinen die restlichen Option oder ich lösche die rc Datei dann starte dann gscan2pdf Und ob jetzt Plasma Perl oder sonstwer das Problem dabei ist im Prinzip egal. Es funktioniert nicht so wie es soll.

willy4711 · Beitrag von **willy4711** » 26.11.2018 18:10:02

Hab auch mal einen Test gemacht : Die Programme sind aus den Dateinahmen ersichtlich.

Wenn ich im Modus "Strichzeichnung" (Master PDF Editor "lineart") scanne,
unterscheiden sich die Programme kaum. (na ja - 139 kB zu 316 kB ist ja auch was)

Xsane hat einfach zu viele Einstellungsmöglichkeiten, als dass man ohne sich fachlich umfassend einzuarbeiten was vernünftiges produzieren könnte. Soweit das Scannen als Strichzeichnung reicht, der einzige Modus, wo man gleich loslegen kann, ohne
gross was einzustellen.

Die Dateien mit "optimiert " wurden mit dem Master PDF Editor als optimiertes PDF gespeichert.
Die Differenzen sind erheblich, wenn auch kostenpflichtig.

Die Bildqualität unterscheidet sich auch von Programm zu Programm (finde ich jedenfalls)
Die Dateigröße ist aber selbst bei Strichzeichnungen immerhin um den Faktor 2 -3 unterschiedlich.

Am einfachsten zu handeln ist da der Master-PDF-Editor, da das Abspeichern im "optimierten Format"
ein Arbeitsschritt ist- Scannen ---> speichern.
Für berufliche Zwecke könnte das eine Lösung sein, da das Optimieren bei der Gratis-Version ein Wasserzeichen hinterlässt

)
Oder man sieht darüber hinweg

Code: Alles auswählen

51K    Nov 26 16:00 gscan2pdf_ 600_DPI_Strichz_jpeg_ Optimiert .pdf [1]
316K   Nov 26 01:00 gscan2pdf_ 600_DPI_Strichz_jpeg.pdf [2]
50K    Nov 26 15:23 Masterpdf editor 600 DPI Lineart optimiert.pdf [3]
139K   Nov 26 15:14 Masterpdf editor 600 DPI Lineart .pdf [4]
1 2,0M Nov 26 14:55 Simplescan 600 DPI.pdf
1 9,5M Nov 26 15:00 xsane 600 DPI Farbe voller Farbumfang.pdf
1 5,1M Nov 26 14:59 xsane 600 DPI Graustufen Voller Farbumfang.pdf
267K   Nov 26 15:01 xsane 600 DPI Strichzeichnung.pdf

Mal ein Vergleich "Strichzeichnungsmodus (ich hoffe nicht mit den Nummern durcheinander gekommen zu sein):
Bei den optimierten sind Wasserzeichen sichtbar (gratis-Version)

[1]

[2]

[3]

[4]

Beitrag von **wanne** » 26.11.2018 22:18:51

Also ich sehe 4 mal ein jpeg mit 700kiB. Mit dem kleinen Unterschied, dass das oberste keine Buchstaben mehr enthällt sondern nur noch pixelmatsch.
Zum Vergleich: Hier eine durch ghostscript gejagte:

Code: Alles auswählen

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.3 -dBATCH -dNOPAUSE -dQUIET -sProcessColorModel=DeviceGray -sColorConversionStrategy=Gray -dOverrideICC -sOutputFile=output.pdf -dFIXEDMEDIA -dEmbedAllFonts=false testfile.pdf;

Ja. Das ist böse optimiert. Aber so schlimm ist da gar nicht. Die gs Kommandos sind halt immer ewig lang. Schon alleine damit man nicht 5k Outputzeilen bekommt.
https://nextcloud.zdv.uni-tuebingen.de/ ... j/download
34K und ansatzweise dem Original entsprechend.

Beitrag von **wanne** » 26.11.2018 22:53:35

Hier noch ein webp davon (43kiB):

Code: Alles auswählen

ffmpeg.static -i Pic.png -s 1275x1650 -compression_level 6 -qscale 1 -preset text -y out.webp

https://nextcloud.zdv.uni-tuebingen.de/ ... i99KWcBwZH

willy4711 · Beitrag von **willy4711** » 26.11.2018 23:10:37

wanne hat geschrieben:
26.11.2018 22:18:51
Also ich sehe 4 mal ein jpeg mit 700kiB. Mit dem kleinen Unterschied, dass das oberste keine Buchstaben mehr enthällt sondern nur noch pixelmatsch.
Zum Vergleich: Hier eine durch ghostscript gejagte:

Ja das überzeugt.

Zu den 700 kB: Leider gibt es mit pdf- Files Probleme bei Imgur: Die lassen sich nicht vergrößern. Deshalb musste sie daher
erstmal nach jpg - umwandeln.

Meine Einwände:

Ich wehre mich dagegen , mich zuerst in die Syntax von irgendwelchen Tools (hier: ghostscript) einarbeiten zu müssen.
Es ist mal wieder traurig, dass solche Ergebnisse, wie du da präsentiert hast, anscheinend nur auf der Kommandozeile zu erreichen sind.

Irre - Da gibt es anscheinend sehr leistungsfähige Tools. Da gibt es wahrscheinlich in Linux Foren hunderte von Threads,
die sich mit dieser Problematik beschäftigen. Aber niemand kommt auf die Idee hier mal ein für "Otto Normalverbraucher"
eine GUI dafür zu entwickeln.

Ich hätte ja noch xsane anfügen können, aber das PDF xsane 600 DPI Strichzeichnung.pdf
sieht genauso beschissenen aus, ist bloß doppelt so groß wie das vom Master PDF Editor.

Besser wird es erst ab 2 MB aufwärts mit GUI- Verfahren.

Mal wieder ein schlagender Beweis für die Anwenderfeindlichkeit von Linux , was PDF betrifft.

Beitrag von **wanne** » 27.11.2018 00:46:07

Zu den 700 kB: Leider gibt es mit pdf- Files Probleme bei Imgur: Die lassen sich nicht vergrößern.

Deswegen würde ich die Finger von Imgur lassen. Wenn schon mit Werbung dann halt gleich https://zippyshare.com/, Mega.nz upload.cat filerio.in oder so.
Dann bekommt der Downloader wenigstens, was du hochgeladen hast.

Es ist mal wieder traurig, dass solche Ergebnisse, wie du da präsentiert hast, anscheinend nur auf der Kommandozeile zu erreichen sind.

Da wäre ich mir nicht so sicher.
Ich referiere halt die Kommandozeile und kenne kaum passende GUI-Tools. Wobei mich mal stark interessieren würde, was xsane so anzeigt. Leider sehe ich das nicht, solange mein Scanner nicht angeschlossen ist.
Ich würde mal tippen, dass z.B. incscape da viel hinbekommt, wenn man weiß wie.
Btw. haben die jpegs genau 300dpi. Ich tippe, dass auch master-PDF die beschert hohen dpi-Zahlen ignoriert.
Aber prinzipiell gebe ich dir recht:

Mal wieder ein schlagender Beweis für die Anwenderfeindlichkeit von Linux , was PDF betrifft

Du hast ja schon kostenpflichtige tools genannt. Aber PDF ist halt ein extrem hässliches Format. Da setzt sich kaum jemand ohne Geld dafür zu bekommen mit auseinander. Entsprechend wenig Tools gibt es für nicht zahlende Anwender. Und ein Drucker (und damit Xerox oder HP die die "Pro" version von ghostscript kaufen) braucht halt keine GUI.
Deswegen auch meine Empfehlung zu "echten" Bildformaten. Das sind halt deutlich angenehmere Formate und entsprechend gibt es dafür deutlich besseres Tooling. Das gilt btw. auch nicht nur für Linux. Auch unter Windows ist PDF ein Graus.

debianoli · Beitrag von **debianoli** » 27.11.2018 11:21:07

willy4711 hat geschrieben:
26.11.2018 23:10:37
Mal wieder ein schlagender Beweis für die Anwenderfeindlichkeit von Linux , was PDF betrifft.

Nö. Ich bevorzuge zwar auch eine einfache UI (siehe gscan2pdf), aber die brauchst du definitiv nicht in diesem Fall. Vor allem, da es sich um immer den gleichen Vorgang handelt: Ein Scan soll hochwertig in ein möglichst kleines PDF verwandelt werden.

In dem Fall kann man sehr gut einen Workflow anlegen:

Alle Scan wandern als Rohdaten in den festgelegten Ordner Input.

Ein Cron-Job prüft den Ordner auf vorhandene Dateien und wandelt diese automatische per ghostscript in PDFs um. Dann verschiebt der Cron-Job die Dateien in Output-Verzeichnisse.

Fertig.

Übrigens ist so was im professionellen Bereich recht häufig anzutreffen.

debianforum.de

Grösse der gescannten PDF-Dateien

Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien

Re: Grösse der gescannten PDF-Dateien