Dokumentenarchivierung

Einrichten des Druckers und des Drucksystems, Scannerkonfiguration und Software zum Scannen und Faxen.
Antworten
Benutzeravatar
chabayo
Beiträge: 930
Registriert: 17.08.2005 07:44:33
Kontaktdaten:

Dokumentenarchivierung

Beitrag von chabayo » 04.06.2018 17:29:24

Tach, ich scanne mit ADF ein paar Schreiben ein, bewegt sich im rahmen von <5000 Seiten.

Mit 'scanimage' und gebrauch dessen batch-Funktion wuerde ich das bis hierhin als ausreichend bezeichnen, ich bekomme im Schnitt 35 MB grosse png-Dateien, konvertiere dazu einen snapshot, fuer die Rueckseite der Vollstaendigkeit wegen, nicht alle haben Text darauf, wohl < 30%, das gleiche.

Anschliessend arbeite ich mit gocr um die damit erstellten ASCII-Daten in einem pool zusammenzufuehren und zu strukturieren.

Ich denke es waere vllt. moeglich Vor-, Rueckseite, Snapshots, und OCR-RawASCII in einen Container/Blatt zu packen, hab aber keine wage
Vorstellung was zu empfehlen waere,

desweiteren ist 'gocr' meiner Ansicht nach mangelhaft entwickelt, oder schlecht von mir verstanden.

Hat jemand ein paar Tips? - Danke.
Watt about the non-digital!?

geier22

Re: Dokumentenarchivierung

Beitrag von geier22 » 04.06.2018 18:29:05

Ich benutze Debiangscan2pdf und Debiantesseract-ocr

Zum Nachbearbeiten sieh dir malDebian yagf an

wanne
Moderator
Beiträge: 7447
Registriert: 24.05.2010 12:39:42

Re: Dokumentenarchivierung

Beitrag von wanne » 04.06.2018 18:41:15

Professionell wird sowas so gehandhabt, dass man einmal den Scan hat als Bild hat und dann das ganze in irgend einer Datenbanksoftware Verwaltet. (D-Work, Goobi, Visual Library sind da Stichworte.) Die führen dann zu den Bildern Metadaten zu denen dann auch OCRs (Aber auch Entstehungsdatum usw.) gehören.
Die Einzelteile kann man sich dann im gewünschten Format runterladen. Will man exportieren steckt man Orginale und Metadaten als XML zusammen in eine zip-Datei.
rot: Moderator wanne spricht, default: User wanne spricht.

Benutzeravatar
chabayo
Beiträge: 930
Registriert: 17.08.2005 07:44:33
Kontaktdaten:

Re: Dokumentenarchivierung

Beitrag von chabayo » 05.06.2018 12:08:49

Danke fuer die Anregung.

Schon ein gewisser Unterschied.
Watt about the non-digital!?


Nevro

Re: Dokumentenarchivierung

Beitrag von Nevro » 30.06.2018 19:45:47

Wie sieht es denn aus ?

Benutzeravatar
chabayo
Beiträge: 930
Registriert: 17.08.2005 07:44:33
Kontaktdaten:

Re: Dokumentenarchivierung

Beitrag von chabayo » 01.07.2018 17:12:02

Hab ein bisschen damit rumgespielt.

Auch wenn tesseract auf den ersten Blick sehr vielversprechend war hatte es im Naechsten, noch?, keinen beeindruckenden Fortschritt bedeutet.

Im Privatbereich hatte ich gleich nutzen daraus ziehen koennen, Prinzipiell ist das Projekt ein mehr oder weniger 'Notwendiges Uebel' das die Beschaeftigung mit EDV beilaeufig entwickelt. Fuer das einpflegen der Grafiken in eine Datenbank nehme ich noch Abstand, dazu sind meine Programmierkenntnisse nicht ausgereift genug.

Die formel binaeren Daten werde ich wohl sicherlich in einer Datenbank ablegen, mit einem Verweis auf die Datei.

{eigentlich denke ich schon daran mal ein nn darueber eine Meinung hinsichtlich der philosophischen Wertigkeit, bzw. der Relevanz des einen zum jeweiligen haben zu lassen, aber solange man besseres zu tun hat, interessiert einen keine Meinung, oder?}

Z. Zt. arbeite ich daran Dateien in einer RAW/{index}/{md5sum} Verzeichnisstruktur abzulegen, und in einer sqlite-Datei mit Referenzen zu begleiten.

Ein Frontend ist noch nicht bedacht; bedient wird sich durch frickelei.
Watt about the non-digital!?

Antworten