Hallo Community,
gibt es eine Möglichkeit bei PDF-Dateien anzeigen zu lassen, ob OCR vorhanden ist oder nicht. Habe hier viele eingescannte Dokumente, wo teils OCR vorhanden ist oder eben nicht. Wie finde ich effizient heraus, welche PDF-Datei bereits OCR hat? Die Sprachen sind Deutsch und Französisch.
Nachtrag: Die PDF's lasse ich mit PDF24 durch den OCR-Creator unter wine laufen, was tipptopp funktioniert.
B52
--edit--
Typo
[gelöst] OCR in PDF-Dateien anzeigen lassen
[gelöst] OCR in PDF-Dateien anzeigen lassen
Zuletzt geändert von B52 am 10.02.2021 20:33:37, insgesamt 1-mal geändert.
«Der Vorteil der Klugheit besteht darin,
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)
Re: OCR in PDF-Dateien anzeigen lassen
Du suchst also eingescannte PDF-Dateien die noch keinen Text und nur Bilder enthalten, also noch keinen nachtraeglich eingebetteten Text enthalten? Wenn dem so ist:B52 hat geschrieben:10.02.2021 18:35:57Hallo Community,
gibt es eine Möglichkeit bei PDF-Dateien anzeigen zu lassen, ob OCR vorhanden ist oder nicht. Habe hier viele eingescannte Dokumente, wo teils OCR vorhanden ist oder eben nicht. Wie finde ich effizient heraus, welche PDF-Datei bereits OCR hat? Die Sprachen sind Deutsch und Französisch.
Code: Alles auswählen
if $(grep -aq '/Text' <datei.pdf>); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Bei mir erledigen das pdfsandwich, pdftk, imagemagick, tesseract und bc ohne wine, was auch tipptopp funktioniertNachtrag: Die PDF's lasse ich mit PDF24 durch den OCR-Creator unter wine laufen, was tipptopp funktioniert.
Re: OCR in PDF-Dateien anzeigen lassen
Das ist aber mal ein Fall von „useless use of command substitution“ und „useless use of subshell“rodney hat geschrieben:10.02.2021 19:49:02Code: Alles auswählen
if $(grep -aq '/Text' <datei.pdf>); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Folgendes reicht völlig:
Code: Alles auswählen
if grep -aq '/Text' <datei.pdf>; then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Manchmal bekannt als Just (another) Terminal Hacker.
Re: OCR in PDF-Dateien anzeigen lassen
Code: Alles auswählen
$ if $(grep -aq '/Text' '178. Sitzung_d.pdf'); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Enthaelt KEINEN Text
Code: Alles auswählen
$ if $(grep -aq '/Text' '22. Sitzung_d.pdf'); then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Enthaelt Text
Code: Alles auswählen
~/Dokumente/Originale zum Versand/Protokolle 1989-1996$ ls
'178. Sitzung_d.pdf' '185. Sitzung_d.pdf' '192. Sitzung_d.pdf' '199. Sitzung_f.pdf' '206. Sitzung_f.pdf' '213. Sitzung_d.pdf' '220. Sitzung_d.pdf'
'179. Sitzung_d.pdf' '186. Sitzung_d.pdf' '193. Sitzung_d.pdf' '200. Sitzung_f.pdf' '207. Sitzung_f.pdf' '214. Sitzung_d.pdf' '221. Sitzung_d.pdf'
'180. Sitzung_d.pdf' '187. Sitzung_d.pdf' '194. Sitzung_d.pdf' '201. Sitzung_f.pdf' '208. Sitzung_f.pdf' '215. Sitzung_d.pdf'
'181. Sitzung_d.pdf' '188. Sitzung_d.pdf' '195. Sitzung_f.pdf' '202. Sitzung_f.pdf' '209. Sitzung_d.pdf' '216. Sitzung_d.pdf'
'182. Sitzung_d.pdf' '189. Sitzung_d.pdf' '196. Sitzung_f.pdf' '203. Sitzung_f.pdf' '210. Sitzung_d.pdf' '217. Sitzung_d.pdf'
'183. Sitzung_d.pdf' '190. Sitzung_d.pdf' '197. Sitzung_f.pdf' '204. Sitzung_d.pdf' '211. Sitzung_d.pdf' '218. Sitzung_d.pdf'
'184. Sitzung_d.pdf' '191. Sitzung_d.pdf' '198. Sitzung_f.pdf' '205. Sitzung_d.pdf' '212. Sitzung_d.pdf' '219. Sitzung_d.pdf'
«Der Vorteil der Klugheit besteht darin,
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)
Re: OCR in PDF-Dateien anzeigen lassen
Jep, geht auch
Code: Alles auswählen
yuna@debian:~/Dokumente/Originale zum Versand/Protokolle 1958-1977$ if grep -aq '/Text' '93. Sitzung_d.pdf'; then echo "Enthaelt Text"; else echo "Enthaelt KEINEN Text"; fi
Enthaelt Text
«Der Vorteil der Klugheit besteht darin,
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)
dass man sich dumm stellen kann.
Das Gegenteil ist schon schwieriger.»
(Kurt Tucholsky)