[gelöst] OCR in PDF-Dateien anzeigen lassen

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
Benutzeravatar
B52
Beiträge: 428
Registriert: 07.08.2011 12:35:02
Wohnort: Bern (CH)
Kontaktdaten:

[gelöst] OCR in PDF-Dateien anzeigen lassen

Beitrag von B52 » 10.02.2021 18:35:57

Hallo Community,

gibt es eine Möglichkeit bei PDF-Dateien anzeigen zu lassen, ob OCR vorhanden ist oder nicht. Habe hier viele eingescannte Dokumente, wo teils OCR vorhanden ist oder eben nicht. Wie finde ich effizient heraus, welche PDF-Datei bereits OCR hat? Die Sprachen sind Deutsch und Französisch.

Nachtrag: Die PDF's lasse ich mit PDF24 durch den OCR-Creator unter wine laufen, was tipptopp funktioniert.

B52

--edit--
Typo
Zuletzt geändert von B52 am 10.02.2021 20:33:37, insgesamt 1-mal geändert.
«Der Vorteil der Klugheit besteht darin,
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)

rodney
Beiträge: 334
Registriert: 09.12.2016 04:15:59

Re: OCR in PDF-Dateien anzeigen lassen

Beitrag von rodney » 10.02.2021 19:49:02

B52 hat geschrieben: ↑ zum Beitrag ↑
10.02.2021 18:35:57
Hallo Community,

gibt es eine Möglichkeit bei PDF-Dateien anzeigen zu lassen, ob OCR vorhanden ist oder nicht. Habe hier viele eingescannte Dokumente, wo teils OCR vorhanden ist oder eben nicht. Wie finde ich effizient heraus, welche PDF-Datei bereits OCR hat? Die Sprachen sind Deutsch und Französisch.
Du suchst also eingescannte PDF-Dateien die noch keinen Text und nur Bilder enthalten, also noch keinen nachtraeglich eingebetteten Text enthalten? Wenn dem so ist:

Code: Alles auswählen

if $(grep -aq '/Text' <datei.pdf>); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Nachtrag: Die PDF's lasse ich mit PDF24 durch den OCR-Creator unter wine laufen, was tipptopp funktioniert.
Bei mir erledigen das pdfsandwich, pdftk, imagemagick, tesseract und bc ohne wine, was auch tipptopp funktioniert

JTH
Moderator
Beiträge: 3023
Registriert: 13.08.2008 17:01:41
Wohnort: Berlin

Re: OCR in PDF-Dateien anzeigen lassen

Beitrag von JTH » 10.02.2021 19:56:22

rodney hat geschrieben: ↑ zum Beitrag ↑
10.02.2021 19:49:02

Code: Alles auswählen

if $(grep -aq '/Text' <datei.pdf>); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Das ist aber mal ein Fall von „useless use of command substitution“ und „useless use of subshell“ ;)

Folgendes reicht völlig:

Code: Alles auswählen

if grep -aq '/Text' <datei.pdf>; then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Manchmal bekannt als Just (another) Terminal Hacker.

Benutzeravatar
B52
Beiträge: 428
Registriert: 07.08.2011 12:35:02
Wohnort: Bern (CH)
Kontaktdaten:

Re: OCR in PDF-Dateien anzeigen lassen

Beitrag von B52 » 10.02.2021 20:07:47

Code: Alles auswählen

$ if $(grep -aq '/Text' '178. Sitzung_d.pdf'); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Enthaelt KEINEN Text
vs.

Code: Alles auswählen

$ if $(grep -aq '/Text' '22. Sitzung_d.pdf'); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Enthaelt Text
Ja, genau das suche ich. Es sind von Schreibmaschine geschriebene Sitzungsprotokolle, die eingescannt wurden. Jetzt muss ich nur noch herausfinden, wie ich das Ordnerweise anwenden kann, also auf:

Code: Alles auswählen

~/Dokumente/Originale zum Versand/Protokolle 1989-1996$ ls
'178. Sitzung_d.pdf'  '185. Sitzung_d.pdf'  '192. Sitzung_d.pdf'  '199. Sitzung_f.pdf'	'206. Sitzung_f.pdf'  '213. Sitzung_d.pdf'  '220. Sitzung_d.pdf'
'179. Sitzung_d.pdf'  '186. Sitzung_d.pdf'  '193. Sitzung_d.pdf'  '200. Sitzung_f.pdf'	'207. Sitzung_f.pdf'  '214. Sitzung_d.pdf'  '221. Sitzung_d.pdf'
'180. Sitzung_d.pdf'  '187. Sitzung_d.pdf'  '194. Sitzung_d.pdf'  '201. Sitzung_f.pdf'	'208. Sitzung_f.pdf'  '215. Sitzung_d.pdf'
'181. Sitzung_d.pdf'  '188. Sitzung_d.pdf'  '195. Sitzung_f.pdf'  '202. Sitzung_f.pdf'	'209. Sitzung_d.pdf'  '216. Sitzung_d.pdf'
'182. Sitzung_d.pdf'  '189. Sitzung_d.pdf'  '196. Sitzung_f.pdf'  '203. Sitzung_f.pdf'	'210. Sitzung_d.pdf'  '217. Sitzung_d.pdf'
'183. Sitzung_d.pdf'  '190. Sitzung_d.pdf'  '197. Sitzung_f.pdf'  '204. Sitzung_d.pdf'	'211. Sitzung_d.pdf'  '218. Sitzung_d.pdf'
'184. Sitzung_d.pdf'  '191. Sitzung_d.pdf'  '198. Sitzung_f.pdf'  '205. Sitzung_d.pdf'	'212. Sitzung_d.pdf'  '219. Sitzung_d.pdf'
aber vielen Dank, das ist auf jeden Fall schon ein Anfang!
«Der Vorteil der Klugheit besteht darin,
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)

Benutzeravatar
B52
Beiträge: 428
Registriert: 07.08.2011 12:35:02
Wohnort: Bern (CH)
Kontaktdaten:

Re: OCR in PDF-Dateien anzeigen lassen

Beitrag von B52 » 10.02.2021 20:28:08

JTH hat geschrieben: ↑ zum Beitrag ↑
10.02.2021 19:56:22
Folgendes reicht völlig:
Jep, geht auch :mrgreen:

Code: Alles auswählen

yuna@debian:~/Dokumente/Originale zum Versand/Protokolle 1958-1977$ if grep -aq '/Text' '93. Sitzung_d.pdf'; then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Enthaelt Text
«Der Vorteil der Klugheit besteht darin,
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)

Antworten