(gelöst) qpdfview, Text kopieren

guennid · Beitrag von **guennid** » 29.12.2016 11:24:14

Merwürden...

ich habe hier unter Jessie qpdfview installiert. Bei der einen PDF-Datei kann ich, wenn ich einen als Text am Bildschirm erscheinenden Ausschnitt markiert habe, die Option "Text kopieren" auswählen und die Auswahl anschließend in einen Editor kippen, bei einem anderen PDF-File erscheint nur "Bild kopieren" und "Bild speichern". Offenbar ist PDF nicht gleich PDF. Dass, was am Bildschirm als Text erscheint, im PDF kein Text sein muss, weiß ich seit kurzem durch niemand. Wie kriege ich die Unterschiede heraus? Kann man den Nicht-Text IM pdf in Text umwandeln?

Grüße, Günther

eggy · Beitrag von **eggy** » 29.12.2016 11:39:19

Kommt drauf an, wahrscheinlich musst Du OCR bemühen. Versuchs mal mit ocrmypdf.

guennid · Beitrag von **guennid** » 29.12.2016 11:57:22

Danke für den Hinweis! Das Programm scheint's nur für sid zu geben (startpage/google findet's jedenfalls dort, die Debian-Paketsuche findet es nirgends

).

Aber ich denke, auf ocrmydbf verzichte ich für's Erste, weil mir die Lösung nicht so wichtig ist. Und dieser Zoo von Einzel-Konsole-Programmen für die PDF-Manipulation wächst mir langsam über den Kopf. Und in diesem Fall sollte die Umwandlung in eine bitmap, auf die ich

tesseract direkt loslasse, wohl auch das Gewünschte tun.

Beitrag von **smutbert** » 29.12.2016 16:17:25

Du kannst auch eine GUI dafür verwenden, zB

gscan2pdf, das dann seinerseits auf tesseract, cuneiform oder gocr zurückgreift.
Ich hab mit OCR von PDFs mit Bildern als Text oder selbst gescannten Seiten allerdings noch nie wirklich akzeptable Ergebnisse erzielt, es schwankte immer von "was soll dieser Zeichensalat, da sind ja nicht einmal Buchstaben im Ergebnis" bis zu "beinahe akzeptabel, aber wieso zum Geier sind alle e zu a geworden".

guennid · Beitrag von **guennid** » 29.12.2016 17:31:07

Ein Dankeschön auch an dich, smutbert.

Aber lass mal.Ich habe mir die "Eigenschaften" der beiden PDFs mal angeschaut. Bei dem, wo das Kopieren funktionierte, war beim Hersteller sowas wie "MS-Word" angegeben. Diese Datei hatte ich vermutlich aus dem Netz geholt. Bei der anderen war an dieser Stelle "Cairo"-Dingsbums angegeben. Ich vermute stark, dass ich dieses PDF irgendwann mal selber mit gimp "behandelt" hatte, wovon ich nach meinen anderen letzten Erfahrungen in Zukunft eh die Finger lassen werde.

Ich gehe mal davon aus, dass in der Regel in einem PDF das, was als Text am Bildschirm erscheint, auch als Text in der Datei kodiert ist. Wenn mal ausnahmsweise nicht und es mir wichtig genug ist, versuch' ich es wie oben beschrieben.

Ich tendiere dazu, im Rahmen meiner Bedürfnisse möglichst wenig zu installieren. gscan2pdf werde ich dennoch versuchen, ich im Hinterkopf zu behalten - wenngleich, du sagst ja selbst, dass es in diesem Fall eine ziemliche Glückssache ist, mit OCR aus einem solchen PDF noch einen verwertbaren Text zu erstellen.

smutbert hat geschrieben:Ich hab mit OCR von PDFs mit Bildern als Text oder selbst gescannten Seiten allerdings noch nie wirklich akzeptable Ergebnisse erzielt

Für meinen armen Kopf sind in dem Satz ein paar "Parameter" zuviel drin.

Will nur bemerken: Mit tesseract behandelte Bitmap-Scans funktionieren hier nahezu fehlerfrei.

Beitrag von **smutbert** » 29.12.2016 18:09:08

guennid hat geschrieben:[…]
Ich gehe mal davon aus, dass in der Regel in einem PDF das, was als Text am Bildschirm erscheint, auch als Text in der Datei kodiert ist.[…]

Das wäre schön ist aber nicht immer so. In gar nicht so wenigen PDFs befinden sich tatsächlich ausschließlich Bilder. Bei mir waren es u.a. Service- und Bedienungsanleitungen von zwei HiFigeräten eines Herstellers.
Auch mit gscan2pdf erzeugt man PDFs mit Bildern des gescannten Textes, nur kann gscan2pdf eben mithilfe von Tesseract und den anderen OCR-Programmen auch zusätzlich eine Ebene mit (unsichtbarem) Text erzeugen, dank dem man das PDF durchsuchen kann.
Wenn es bei einer Textebene nur um die Suche, nicht aber um die Darstellung des Texts geht, sind ein paar Fehler bei der Texterkennung auch nicht so schlimm.

guennid hat geschrieben:
smutbert hat geschrieben:...
Für meinen armen Kopf sind in dem Satz ein paar "Parameter" zuviel drin. Will nur bemerken: Mit tesseract behandelte Bitmap-Scans funktionieren hier nahezu fehlerfrei.

Anders ausgedrückt, war ich mit gscan2pdf bei der Texterkennung meistens erfolglos. Ich will aber nicht ausschließen, dass mit irgendeine Einstellung von gscan2pdf das Ergebnis versaut hat.

Jedenfalls ist es egal ob die Ausgangsbasis nun eine Pixelgrafik/Bitmap in Form einer Bildatei oder in Form eines PDF ist.

guennid · Beitrag von **guennid** » 31.12.2016 08:48:50

Ich habe mir das jetzt mal interessehalber angeschaut: gscan2pdf. Das ist ja ein ziemlich komplexer Inst.-Hammer!

Das lass ich einstweilen.

Ein weiterer Test: Umwandlung eines "Bild"-PDF-Textes in JPG und tesseract darauf angesetzt: Nierderschmetternde Ergebnisse, sowohl via inkscape (bitmap-Export), als auch gimp.

vorläufiges Fazit: Text aus einem Nicht-Text-PDF als Text herauslösen zu wollen, funktioniert nicht wirklich.

Grüße, Günther

debianoli · Beitrag von **debianoli** » 31.12.2016 08:56:48

und wenn du den Textbereich ausschneidest und als eigenes Bild speicherst, dann auch?

guennid · Beitrag von **guennid** » 31.12.2016 09:07:57

Danke für den Denkanstoß! Altes Problem von mir: Warum einfach, wenn's auch kompliziert geht?

Ergebnis ist immer noch suboptimal, aber immerhin brauchbar.

debianforum.de

(gelöst) qpdfview, Text kopieren

(gelöst) qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren

Re: qpdfview, Text kopieren