PDF Hintergrund säubern

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
liekendeeler
Beiträge: 55
Registriert: 30.07.2013 11:59:39

PDF Hintergrund säubern

Beitrag von liekendeeler » 26.05.2016 12:55:53

Hallo, und schönen Feiertag denen, die davon betroffen sind :)

Ich bekomme viele Text-Scans als PDF, die fälschlicherweise als Bild gescannt wurden.
Nicht nur, dass beim Ausdrucken irre viel Tinte/Toner verbraucht wird, weil ja der Hintergrund auch "Farbe" enthält, die Dokumente sind oft auch viel zu groß zum Abspeichern.

Ich suche nach einem "Editor", mit dem ich ein solches "Bild" in eine Textkopie oder Strichgrafik rein schwarz-weiß umwandeln, oder den "farbigen" Hintergrund entfernen kann.

Ich danke schon mal vorweg.

Avi

Ach ja, die Technik: X201 Thinkpad mit 4 MB RAM und OCZ 260 GB, XFCE4 Deb 8_Jessie
Thinkpad X230, 4GB RAM, Crucial m4 128 GB 6b/s mit Siduction XFCE und einer 350 GB SSD

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22359
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: PDF Hintergrund säubern

Beitrag von KBDCALLS » 26.05.2016 14:18:14

Liefert ein Scanner was anderes ? Das gescannte Bild wird in ein PDF verpackt. Falls der Scan gut genug ist mit OCR Debiantesseract-ocr oder Debiancuneiform . Tesseract kann auch das PDF lesen. Falls es unbedingt dedruckt werden muß Debianocrmypdf . Anschließend ist das PDF durchsuchbar. Kann auch mit denDebian poppler-utils das Bild aus dem PDF extrahieren.


Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

BenutzerGa4gooPh

Re: PDF Hintergrund säubern

Beitrag von BenutzerGa4gooPh » 26.05.2016 20:59:20

Noch eine Idee aber wahrscheinlich umständlicher:
pdf in jpg umwandeln und dann mittels Bildverarbeitung filtern, in schwarz-weiss umwandeln, "kleinrechnen". Mehrseitige PDF ergeben mehrere jpg.
http://www.linux-community.de/Internal/ ... it-convert
http://www.imagemagick.org/script/convert.php
PDFs kann man m. E. auch direkt in Gimp laden und bearbeiten, filtern, umrechnen.

debianoli
Beiträge: 4073
Registriert: 07.11.2007 13:58:49
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF Hintergrund säubern

Beitrag von debianoli » 27.05.2016 07:56:46

Richtig "säubern" kannst du einen Hintergrund nur umständlich per Grafikbearbeitung mit Gimp. Und da sollten die gescannten Buchstaben möglichst eine einheitliche Farbe haben, sonst wird es wieder schwer.

Du kannst aber die Größe der Scans recht problemlos kleinrechnen lassen, indem du sie in JPGs mit niedriger Qualität (zB 75%) umwandelst. Musst dabei aber testen, ob sich das dann noch lesen lässt. Eine hohe Auflösung beim Scannen verbessert schließlich die Lesbarkeit bei großen Dateien. Umwandeln kannst du sie mit pdftoppm aus den Debianpoppler-utils oder mit convert aus Debianimagemagick

geier22

Re: PDF Hintergrund säubern

Beitrag von geier22 » 27.05.2016 08:33:25

Ich benutze zum Scannen Debiangscan2pdf und als OCR - Software Debiantesseract. Das funktioniert ganz gut. Du kannst mit diesem Programm auch Bild- Dateien importieren und eine Texterkennung durchführen. Ausserdem gibt es noch eine Editor, mit dem man ein grundlegende
Dinge tun kann (Bereiche auswählen, löschen usw)

liekendeeler
Beiträge: 55
Registriert: 30.07.2013 11:59:39

Re: PDF Hintergrund säubern

Beitrag von liekendeeler » 28.05.2016 10:12:33

Moin, und Danke zunächst für Eure Anregungen.

Melde mich, wenn ich das Problem lösen konnte.
Thinkpad X230, 4GB RAM, Crucial m4 128 GB 6b/s mit Siduction XFCE und einer 350 GB SSD

Benutzeravatar
Canaglie
Beiträge: 14
Registriert: 07.05.2016 08:48:26

Re: PDF Hintergrund säubern

Beitrag von Canaglie » 29.05.2016 14:44:06

Ich habe eine ähnliche herangehensweise (muss das auch regelmäßig machen): Extrahieren der Bilder mit pdfimages (aus Debianpoppler-utils); Stapelverarbeitung mit Gimp o.ä.: umwandeln in Graustufen, Farbwerte anpassen (Weiß meistens auf ca. 210, Schwarz ca. 30), umwandeln in S/W; zusammenfügen zu neuem PDF-Dokument mit convert (aus Debianimagemagick).

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF Hintergrund säubern

Beitrag von Revod » 31.05.2016 20:03:04

Befindet sich leider nicht in Debian Repos

https://wiki.ubuntuusers.de/Tamanoir/

Getestet habe ich es nicht, doch wie es in der Wiki steht....
Systemd und PulseAudio, hmmm, nein danke.

guennid

Re: PDF Hintergrund säubern

Beitrag von guennid » 31.05.2016 20:20:57

Wenn der Text nicht editierbar sein muss:
"PDF" in gimp öffnen (die [einzige] Ebene gegebenenfalls auf DIN-A4 skalieren), Menu "Bild/Modus/Indiziert" und dort "Schwarz/Weiß-Palette" anschließend wieder als PDF speichern, äh... "exportieren". Fertig.

Ansonsten (editierbar) bleibt nur tesseract.

Grüße, Günther

[edit]
Nachdem ich mein Vorgehen nochmal getestet habe, will ich noch Folgendes hinzufügen:
Die Umwandlung in den indizierten Modus mit Schwarz/Weiß-Palette vermindert die Bildqualität spürbar. Bei einer Graustufen-Umwandlung habe ich keinen Qualitätsverlust festgestellt. Dürfte dann allerdings für die Reduzierung der Dateigröße nicht mehr viel bringen (vielleicht greift hier Canaglies Tipp bezüglich der Farbwerte).

Umwandlung in editierbaren Text:
mit Debianxpdf kann man Blöcke im PDF mit der Maus markieren und mit mittlerer Maustaste in ein Editorfenster kippen. Da erscheint dann aber jede PDF-Zeile mit Absatzmarke. Außerdem können Zeichensatzprobleme auftreten. Mit Debianevince oder Debianqpdfview ist mir das Markieren/Kopieren nicht gelungen.

Dank an TRex! :wink:

debianoli
Beiträge: 4073
Registriert: 07.11.2007 13:58:49
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF Hintergrund säubern

Beitrag von debianoli » 06.06.2016 13:12:01

guennid hat geschrieben:Die Umwandlung in den indizierten Modus mit Schwarz/Weiß-Palette vermindert die Bildqualität spürbar. Bei einer Graustufen-Umwandlung habe ich keinen Qualitätsverlust festgestellt. Dürfte dann allerdings für die Reduzierung der Dateigröße nicht mehr viel bringen (vielleicht greift hier Canaglies Tipp bezüglich der Farbwerte).
Graustufe nutz den gleichen Farbraum wie bunt, bringt also nix bzgl der Datei-Größe. Was auf Anhieb immer geht ist mehr Kompression bei JPG

Benutzeravatar
Emess
Beiträge: 3665
Registriert: 07.11.2006 15:02:26
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Im schönen Odenwald
Kontaktdaten:

Re: PDF Hintergrund säubern

Beitrag von Emess » 06.06.2016 23:34:42

Ich scanne erst mal jpg und mach den Hintergrund mit gimp weiss.
Einfach etwas mit dem Schwellenwert (o. ä.) spielen.
Debian Testing (bleibt es auch)
Debian Bullseye KDE Plasma 5x Kernel 5.10.0-12-amd64
Notebook HP ZBook 17 G2

http://www.emess62.de

Antworten