vielleicht liegts am Alter oder ich blick es nicht
![Wink ;-)](./images/smilies/icon_wink.gif)
Ich erzeuge mit gimagereader aus verschiedensten gescannten Dokumenten jeweils PDF-Dokumente mit dem Bild als Inhalt sowie unsichtbarer Textlage um es Durchsuchen zu können.
Das funktioniert richtig gut bis auf folgendes:
In der Ansicht mit dem Dokumentbetrachter ist diese Textlage auch unsichtbar, nur beim Drucken nicht. Je nachdem wie exakt das Dokument nachgebildet wurde, ist der Text der "unsichtbaren" Textlage mehr oder weniger störend bis "voll Panne" beim Ausdruck, so lassen geht jedenfalls nicht.
Da ich die Dokumente zum Archivieren scanne, ist mir die maschinelle Durchsuchbarkeit UND die Möglichkeit des "einwandfreien" Ausdrucks wichtig. Nur wie bekomme ich das hin?
Benutzt wird:
Debian 11 Bullseye im aktuellen Stand
gimagereader 3.3.1-1+b2 aus dem Debian Repo
tesseract-ocr und libtesseract 4 4.1.1-2.1
tesseract-deu, -eng und -osd mit Stand 1:4.00~git30-7274cfa-1.1
gedruckt wird über CUPS auf einem Laserjet 4 Plus über die JetDirect Netzwerkkarte. Der Drucker macht sonst keine Zicken.
Die mit dem HP zusammenhängenden Pakete wie printer-driver-hpijs oder printer-driver-hpcups etc. sind in Version 3.21.2+dfsg1-2
Ich habe schon viel gesucht, ob ich da etwas verstellen kann, ob das ein bekannter Bug ist, aber entweder benutze ich die falschen Suchbegriffe oder siehe ganz oben
![Wink ;-)](./images/smilies/icon_wink.gif)
Für Hilfe bin ich sehr dankbar
Stefan