(gelöst) qpdfview, Text kopieren
(gelöst) qpdfview, Text kopieren
Merwürden...
ich habe hier unter Jessie qpdfview installiert. Bei der einen PDF-Datei kann ich, wenn ich einen als Text am Bildschirm erscheinenden Ausschnitt markiert habe, die Option "Text kopieren" auswählen und die Auswahl anschließend in einen Editor kippen, bei einem anderen PDF-File erscheint nur "Bild kopieren" und "Bild speichern". Offenbar ist PDF nicht gleich PDF. Dass, was am Bildschirm als Text erscheint, im PDF kein Text sein muss, weiß ich seit kurzem durch niemand. Wie kriege ich die Unterschiede heraus? Kann man den Nicht-Text IM pdf in Text umwandeln?
Grüße, Günther
ich habe hier unter Jessie qpdfview installiert. Bei der einen PDF-Datei kann ich, wenn ich einen als Text am Bildschirm erscheinenden Ausschnitt markiert habe, die Option "Text kopieren" auswählen und die Auswahl anschließend in einen Editor kippen, bei einem anderen PDF-File erscheint nur "Bild kopieren" und "Bild speichern". Offenbar ist PDF nicht gleich PDF. Dass, was am Bildschirm als Text erscheint, im PDF kein Text sein muss, weiß ich seit kurzem durch niemand. Wie kriege ich die Unterschiede heraus? Kann man den Nicht-Text IM pdf in Text umwandeln?
Grüße, Günther
Zuletzt geändert von guennid am 01.01.2017 16:06:59, insgesamt 1-mal geändert.
Re: qpdfview, Text kopieren
Kommt drauf an, wahrscheinlich musst Du OCR bemühen. Versuchs mal mit ocrmypdf.
Re: qpdfview, Text kopieren
Danke für den Hinweis! Das Programm scheint's nur für sid zu geben (startpage/google findet's jedenfalls dort, die Debian-Paketsuche findet es nirgends ).
Aber ich denke, auf ocrmydbf verzichte ich für's Erste, weil mir die Lösung nicht so wichtig ist. Und dieser Zoo von Einzel-Konsole-Programmen für die PDF-Manipulation wächst mir langsam über den Kopf. Und in diesem Fall sollte die Umwandlung in eine bitmap, auf die ich tesseract direkt loslasse, wohl auch das Gewünschte tun.
Aber ich denke, auf ocrmydbf verzichte ich für's Erste, weil mir die Lösung nicht so wichtig ist. Und dieser Zoo von Einzel-Konsole-Programmen für die PDF-Manipulation wächst mir langsam über den Kopf. Und in diesem Fall sollte die Umwandlung in eine bitmap, auf die ich tesseract direkt loslasse, wohl auch das Gewünschte tun.
Re: qpdfview, Text kopieren
Du kannst auch eine GUI dafür verwenden, zB gscan2pdf, das dann seinerseits auf tesseract, cuneiform oder gocr zurückgreift.
Ich hab mit OCR von PDFs mit Bildern als Text oder selbst gescannten Seiten allerdings noch nie wirklich akzeptable Ergebnisse erzielt, es schwankte immer von "was soll dieser Zeichensalat, da sind ja nicht einmal Buchstaben im Ergebnis" bis zu "beinahe akzeptabel, aber wieso zum Geier sind alle e zu a geworden".
Ich hab mit OCR von PDFs mit Bildern als Text oder selbst gescannten Seiten allerdings noch nie wirklich akzeptable Ergebnisse erzielt, es schwankte immer von "was soll dieser Zeichensalat, da sind ja nicht einmal Buchstaben im Ergebnis" bis zu "beinahe akzeptabel, aber wieso zum Geier sind alle e zu a geworden".
Re: qpdfview, Text kopieren
Ein Dankeschön auch an dich, smutbert.
Aber lass mal.Ich habe mir die "Eigenschaften" der beiden PDFs mal angeschaut. Bei dem, wo das Kopieren funktionierte, war beim Hersteller sowas wie "MS-Word" angegeben. Diese Datei hatte ich vermutlich aus dem Netz geholt. Bei der anderen war an dieser Stelle "Cairo"-Dingsbums angegeben. Ich vermute stark, dass ich dieses PDF irgendwann mal selber mit gimp "behandelt" hatte, wovon ich nach meinen anderen letzten Erfahrungen in Zukunft eh die Finger lassen werde.
Ich gehe mal davon aus, dass in der Regel in einem PDF das, was als Text am Bildschirm erscheint, auch als Text in der Datei kodiert ist. Wenn mal ausnahmsweise nicht und es mir wichtig genug ist, versuch' ich es wie oben beschrieben.
Ich tendiere dazu, im Rahmen meiner Bedürfnisse möglichst wenig zu installieren. gscan2pdf werde ich dennoch versuchen, ich im Hinterkopf zu behalten - wenngleich, du sagst ja selbst, dass es in diesem Fall eine ziemliche Glückssache ist, mit OCR aus einem solchen PDF noch einen verwertbaren Text zu erstellen.
Aber lass mal.Ich habe mir die "Eigenschaften" der beiden PDFs mal angeschaut. Bei dem, wo das Kopieren funktionierte, war beim Hersteller sowas wie "MS-Word" angegeben. Diese Datei hatte ich vermutlich aus dem Netz geholt. Bei der anderen war an dieser Stelle "Cairo"-Dingsbums angegeben. Ich vermute stark, dass ich dieses PDF irgendwann mal selber mit gimp "behandelt" hatte, wovon ich nach meinen anderen letzten Erfahrungen in Zukunft eh die Finger lassen werde.
Ich gehe mal davon aus, dass in der Regel in einem PDF das, was als Text am Bildschirm erscheint, auch als Text in der Datei kodiert ist. Wenn mal ausnahmsweise nicht und es mir wichtig genug ist, versuch' ich es wie oben beschrieben.
Ich tendiere dazu, im Rahmen meiner Bedürfnisse möglichst wenig zu installieren. gscan2pdf werde ich dennoch versuchen, ich im Hinterkopf zu behalten - wenngleich, du sagst ja selbst, dass es in diesem Fall eine ziemliche Glückssache ist, mit OCR aus einem solchen PDF noch einen verwertbaren Text zu erstellen.
Für meinen armen Kopf sind in dem Satz ein paar "Parameter" zuviel drin. Will nur bemerken: Mit tesseract behandelte Bitmap-Scans funktionieren hier nahezu fehlerfrei.smutbert hat geschrieben:Ich hab mit OCR von PDFs mit Bildern als Text oder selbst gescannten Seiten allerdings noch nie wirklich akzeptable Ergebnisse erzielt
Re: qpdfview, Text kopieren
Das wäre schön ist aber nicht immer so. In gar nicht so wenigen PDFs befinden sich tatsächlich ausschließlich Bilder. Bei mir waren es u.a. Service- und Bedienungsanleitungen von zwei HiFigeräten eines Herstellers.guennid hat geschrieben:[…]
Ich gehe mal davon aus, dass in der Regel in einem PDF das, was als Text am Bildschirm erscheint, auch als Text in der Datei kodiert ist.[…]
Auch mit gscan2pdf erzeugt man PDFs mit Bildern des gescannten Textes, nur kann gscan2pdf eben mithilfe von Tesseract und den anderen OCR-Programmen auch zusätzlich eine Ebene mit (unsichtbarem) Text erzeugen, dank dem man das PDF durchsuchen kann.
Wenn es bei einer Textebene nur um die Suche, nicht aber um die Darstellung des Texts geht, sind ein paar Fehler bei der Texterkennung auch nicht so schlimm.
Anders ausgedrückt, war ich mit gscan2pdf bei der Texterkennung meistens erfolglos. Ich will aber nicht ausschließen, dass mit irgendeine Einstellung von gscan2pdf das Ergebnis versaut hat.guennid hat geschrieben:Für meinen armen Kopf sind in dem Satz ein paar "Parameter" zuviel drin. Will nur bemerken: Mit tesseract behandelte Bitmap-Scans funktionieren hier nahezu fehlerfrei.smutbert hat geschrieben:...
Jedenfalls ist es egal ob die Ausgangsbasis nun eine Pixelgrafik/Bitmap in Form einer Bildatei oder in Form eines PDF ist.
Re: qpdfview, Text kopieren
Ich habe mir das jetzt mal interessehalber angeschaut: gscan2pdf. Das ist ja ein ziemlich komplexer Inst.-Hammer! Das lass ich einstweilen.
Ein weiterer Test: Umwandlung eines "Bild"-PDF-Textes in JPG und tesseract darauf angesetzt: Nierderschmetternde Ergebnisse, sowohl via inkscape (bitmap-Export), als auch gimp.
vorläufiges Fazit: Text aus einem Nicht-Text-PDF als Text herauslösen zu wollen, funktioniert nicht wirklich.
Grüße, Günther
Ein weiterer Test: Umwandlung eines "Bild"-PDF-Textes in JPG und tesseract darauf angesetzt: Nierderschmetternde Ergebnisse, sowohl via inkscape (bitmap-Export), als auch gimp.
vorläufiges Fazit: Text aus einem Nicht-Text-PDF als Text herauslösen zu wollen, funktioniert nicht wirklich.
Grüße, Günther
Zuletzt geändert von guennid am 31.12.2016 09:00:51, insgesamt 1-mal geändert.
Re: qpdfview, Text kopieren
und wenn du den Textbereich ausschneidest und als eigenes Bild speicherst, dann auch?
Re: qpdfview, Text kopieren
Danke für den Denkanstoß! Altes Problem von mir: Warum einfach, wenn's auch kompliziert geht?
Ergebnis ist immer noch suboptimal, aber immerhin brauchbar.
Ergebnis ist immer noch suboptimal, aber immerhin brauchbar.