Lios ORC mit extrem vielen Fehler, Verbesserungsansatz?

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
mgolbs
Beiträge: 259
Registriert: 22.03.2009 18:08:17
Wohnort: Tirschenreuth - Löbau

Lios ORC mit extrem vielen Fehler, Verbesserungsansatz?

Beitrag von mgolbs » 14.09.2021 09:10:26

Hallo,

ich habe vor ca. 20 Jahren zu meinem Scanner eine ORC Software (noch Windows 3.11/95) dazu gehabt, welche damals schon recht gut funktionierte. Nun bin ich recht verwundert, dass das Lios Paket derart viele Fehlerkennungen von gut aufgelösten Bildern, 150 DPI deutlich sw, macht. Kann man da was einstellen um die Fehlerrate zu senken. Z.B. wird "s" als "8" permanent ausgegeben. Wenn ich in die Bilder zoome sind die Kanten deutlich zu erkennen. Auch hat das Paket bei z.B. 600DPI Probleme mit definierten Bereichen zur ORC Arbeit, ignoriert diese einfach. Was kann ich da tun? Gibt es unter Linux ein ORC Programm was besser arbeitet?

Auf der Konsole sieht das mit den gleichen Bildern schon deutlich besser aus.

Code: Alles auswählen

tesseract Bild_1_1.png Bild_1_1_orc -l eng --oem 1 --psm 11
Leider wirft es bei ca. 5% der Bilder:

Code: Alles auswählen

Tesseract Open Source OCR Engine v4.0.0 with Leptonica
Error in boxClipToRectangle: box outside rectangle
Error in pixScanForForeground: invalid box
Etwas Abhilfe bringt das Spielen am --psm Parameter

Gruß Markus
Dem Überflüssigen nachlaufen, heißt das Wesentliche verpassen.
Jules Saliège

Antworten