Tach, ich scanne mit ADF ein paar Schreiben ein, bewegt sich im rahmen von <5000 Seiten.
Mit 'scanimage' und gebrauch dessen batch-Funktion wuerde ich das bis hierhin als ausreichend bezeichnen, ich bekomme im Schnitt 35 MB grosse png-Dateien, konvertiere dazu einen snapshot, fuer die Rueckseite der Vollstaendigkeit wegen, nicht alle haben Text darauf, wohl < 30%, das gleiche.
Anschliessend arbeite ich mit gocr um die damit erstellten ASCII-Daten in einem pool zusammenzufuehren und zu strukturieren.
Ich denke es waere vllt. moeglich Vor-, Rueckseite, Snapshots, und OCR-RawASCII in einen Container/Blatt zu packen, hab aber keine wage
Vorstellung was zu empfehlen waere,
desweiteren ist 'gocr' meiner Ansicht nach mangelhaft entwickelt, oder schlecht von mir verstanden.
Hat jemand ein paar Tips? - Danke.
Dokumentenarchivierung
Dokumentenarchivierung
Watt about the non-digital!?
Re: Dokumentenarchivierung
Professionell wird sowas so gehandhabt, dass man einmal den Scan hat als Bild hat und dann das ganze in irgend einer Datenbanksoftware Verwaltet. (D-Work, Goobi, Visual Library sind da Stichworte.) Die führen dann zu den Bildern Metadaten zu denen dann auch OCRs (Aber auch Entstehungsdatum usw.) gehören.
Die Einzelteile kann man sich dann im gewünschten Format runterladen. Will man exportieren steckt man Orginale und Metadaten als XML zusammen in eine zip-Datei.
Die Einzelteile kann man sich dann im gewünschten Format runterladen. Will man exportieren steckt man Orginale und Metadaten als XML zusammen in eine zip-Datei.
rot: Moderator wanne spricht, default: User wanne spricht.
Re: Dokumentenarchivierung
Danke fuer die Anregung.
Schon ein gewisser Unterschied.
Schon ein gewisser Unterschied.
Watt about the non-digital!?
Re: Dokumentenarchivierung
Hab ein bisschen damit rumgespielt.
Auch wenn tesseract auf den ersten Blick sehr vielversprechend war hatte es im Naechsten, noch?, keinen beeindruckenden Fortschritt bedeutet.
Im Privatbereich hatte ich gleich nutzen daraus ziehen koennen, Prinzipiell ist das Projekt ein mehr oder weniger 'Notwendiges Uebel' das die Beschaeftigung mit EDV beilaeufig entwickelt. Fuer das einpflegen der Grafiken in eine Datenbank nehme ich noch Abstand, dazu sind meine Programmierkenntnisse nicht ausgereift genug.
Die formel binaeren Daten werde ich wohl sicherlich in einer Datenbank ablegen, mit einem Verweis auf die Datei.
{eigentlich denke ich schon daran mal ein nn darueber eine Meinung hinsichtlich der philosophischen Wertigkeit, bzw. der Relevanz des einen zum jeweiligen haben zu lassen, aber solange man besseres zu tun hat, interessiert einen keine Meinung, oder?}
Z. Zt. arbeite ich daran Dateien in einer RAW/{index}/{md5sum} Verzeichnisstruktur abzulegen, und in einer sqlite-Datei mit Referenzen zu begleiten.
Ein Frontend ist noch nicht bedacht; bedient wird sich durch frickelei.
Auch wenn tesseract auf den ersten Blick sehr vielversprechend war hatte es im Naechsten, noch?, keinen beeindruckenden Fortschritt bedeutet.
Im Privatbereich hatte ich gleich nutzen daraus ziehen koennen, Prinzipiell ist das Projekt ein mehr oder weniger 'Notwendiges Uebel' das die Beschaeftigung mit EDV beilaeufig entwickelt. Fuer das einpflegen der Grafiken in eine Datenbank nehme ich noch Abstand, dazu sind meine Programmierkenntnisse nicht ausgereift genug.
Die formel binaeren Daten werde ich wohl sicherlich in einer Datenbank ablegen, mit einem Verweis auf die Datei.
{eigentlich denke ich schon daran mal ein nn darueber eine Meinung hinsichtlich der philosophischen Wertigkeit, bzw. der Relevanz des einen zum jeweiligen haben zu lassen, aber solange man besseres zu tun hat, interessiert einen keine Meinung, oder?}
Z. Zt. arbeite ich daran Dateien in einer RAW/{index}/{md5sum} Verzeichnisstruktur abzulegen, und in einer sqlite-Datei mit Referenzen zu begleiten.
Ein Frontend ist noch nicht bedacht; bedient wird sich durch frickelei.
Watt about the non-digital!?