PDF2txt mit extrawurst

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Benutzeravatar
whisper
Beiträge: 3140
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

PDF2txt mit extrawurst

Beitrag von whisper » 06.11.2018 15:21:23

PDF->txt Konverter gibt es ja reiclich.
pdf2text aus Debianpython-pdfminer zum Beispiel macht in meinem konkreten Fall schon das, was ich suche.
Aber, ich möchte Überschriften, Beschreibungen und Absätze erhalten oder anderweitig markieren, damit ich das Ergebnis automatisiert in eine Datenbank bekomme.
Konkret also Schriftattribute markieren, oder unsortierte Listen, Aufzählungen usw.

Meine Frage ist, gibt es ein anderes Tool, das dies leistet?
Vielleicht wäre eine Umwandlung in html und dann mit awk o.ä. weiterverarbeiten einfacher..
Andere Ansätze?

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF2txt mit extrawurst

Beitrag von Revod » 06.11.2018 17:12:56

Vielleicht Import in LO, oder Debiangpdftext, wobei letzteres nur in pdf oder reines ascii Text speichern kann.

Und vielleicht mit den mächtigen Tex Appsm z. B. Debiantexworks, mit letzteres nicht gearbeitet, ist recht mächtig und daher relativ sehr aufwendig bis ich damit umgehen kann.

Ansonsten kenne ich nur 2 Freemium und der eine sollte in HTML exportieren können.
Systemd und PulseAudio, hmmm, nein danke.

Benutzeravatar
Meillo
Moderator
Beiträge: 8765
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: PDF2txt mit extrawurst

Beitrag von Meillo » 06.11.2018 18:27:12

Plain-Text ist ohne Auszeichnungen. Du willst aber Auszeichnungen haben, folglich musst du das PDF in ein Markup-Format (HTML, Tex, ...) konvertieren und nicht nach (Plain-)Text.
Use ed once in a while!

Benutzeravatar
whisper
Beiträge: 3140
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Re: PDF2txt mit extrawurst

Beitrag von whisper » 06.11.2018 18:48:31

Meillo hat geschrieben: ↑ zum Beitrag ↑
06.11.2018 18:27:12
Plain-Text ist ohne Auszeichnungen. Du willst aber Auszeichnungen haben, folglich musst du das PDF in ein Markup-Format (HTML, Tex, ...) konvertieren und nicht nach (Plain-)Text.
Hih, klar, das ist ein Widerspruch.
Habe schon geguckt, der erzeugte html Code ist zwar eine unsäglich <div> seuche, aber machbar.
Derzeit ist es nicht konkret, will mich nur ein wenig proaktiv damit auseinandersetzen, könnte interessant werden.
@Revod:
ich werde mal sehen, mit welchem Tool der html Code am lesbarsten (bzw. leichter zu bearbeiten) ist.

Benutzeravatar
Meillo
Moderator
Beiträge: 8765
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: PDF2txt mit extrawurst

Beitrag von Meillo » 06.11.2018 18:54:04

whisper hat geschrieben: ↑ zum Beitrag ↑
06.11.2018 18:48:31
Habe schon geguckt, der erzeugte html Code ist zwar eine unsäglich <div> seuche, aber machbar.
Je nachdem was genau du machen willst, kann dir vielleicht egal sein, wie der ganze Code aussieht, wenn du nur H1-Tags & Co. suchst.

Derzeit ist es nicht konkret, will mich nur ein wenig proaktiv damit auseinandersetzen, könnte interessant werden.
Je nach Input-PDFs und was du haben willst, koennte es ggf. erfolgsversprechender sein, OCR auf bestimmte Bereiche oder fuer bestimmte Schriftgroessen einzusetzen. Das nur mal als zusaetzlichen Gedankenanstoss.
Use ed once in a while!

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: PDF2txt mit extrawurst

Beitrag von eggy » 06.11.2018 18:57:59

Ich stand mal vor nem ähnlichen Problem, je nachdem, wie die PDF-Datei strukturiert war, hab ich mit pdftk ganz brauchbare Ergebnisse erzielt:

Code: Alles auswählen

pdftk 01.pdf dump_data |grep BookmarkTitle
Mit pdfinfo und dessen verschiedenen Optionen könnte evtl auch was sinnvolles rausfallen.

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF2txt mit extrawurst

Beitrag von Revod » 06.11.2018 19:59:11

whisper hat geschrieben: ↑ zum Beitrag ↑
06.11.2018 18:48:31
...
@Revod:
ich werde mal sehen, mit welchem Tool der html Code am lesbarsten (bzw. leichter zu bearbeiten) ist.
... kann Dir Debianbluefish gerne empfehlen, weil es am besten die Anfang- und Abschluss Tags erkennt, sehr hilfreich bei verschachelte und lange HTML Code.

Als " wysiwyg " habe ich mich " BlueGriffon " eingewöhnt, es erkennt und färbt den <div> ein, sowie alle Tag der Syntax-

Etwas OT: Mit der Beschreibung von bluefish bin ich nicht ganz einverstanden damit, es kann viele Sprachen, doch ausgelegt ist für HTML und PHP, und kompilieren kann es nicht, daher für Software nur bedingt als solches verstehen, mächtig ist es alle Mal.
Systemd und PulseAudio, hmmm, nein danke.

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: PDF2txt mit extrawurst

Beitrag von eggy » 06.11.2018 21:38:17

Sehr OT:
Revod hat geschrieben: ↑ zum Beitrag ↑
06.11.2018 19:59:11
Etwas OT: Mit der Beschreibung von bluefish bin ich nicht ganz einverstanden damit, es kann viele Sprachen, doch ausgelegt ist für HTML und PHP, und kompilieren kann es nicht, daher für Software nur bedingt als solches verstehen, mächtig ist es alle Mal.
Falls Du die Paketbeschreibung meinst: die sagt auch "Perl, php5-cli, make und java-compiler sind zwar nicht vorgeschlagen, werden aber unterstützt.". D.h. Du musst die entsprechenden Compiler installieren, die dann aufgerufen werden können. Die wenigsten Editoren enthalten eigene Compiler für höhere Sprachen, in der Regel rufen die alle nur make/gcc/clang usw auf.

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF2txt mit extrawurst

Beitrag von Revod » 06.11.2018 23:33:36

... Debiangeany :D
eggy hat geschrieben: ↑ zum Beitrag ↑
06.11.2018 21:38:17
Sehr OT:
...
Falls Du die Paketbeschreibung meinst: die sagt auch "Perl, php5-cli, make und java-compiler sind zwar nicht vorgeschlagen, werden aber unterstützt.". D.h. Du musst die entsprechenden Compiler installieren, die dann aufgerufen werden können. Die wenigsten Editoren enthalten eigene Compiler für höhere Sprachen, in der Regel rufen die alle nur make/gcc/clang usw auf.
Ja habe ich unter " Dokument > Sprachmodus " kann man das Unterschied zwischen wie einen echtes Compiler wie Geany und Bluefish erkennen, und auch über die Menü Angebot Optionen erkennt man sehr schnell wozu es am besten geeignet ist ( Ich wüsste keine Alternative ). Doch wie gesagt, es kann auch die wichtigsten Sprachen.

In meinen Augen hat es nur einen Nachteil, man hätte es in gtk2 belassen sollen... doch ich schlage vor, back to Topic... :mrgreen:

PS: Sehe sehe soeben auf der Entwicklerseite,
Bluefish is a powerful editor targeted towards programmers and webdevelopers, ...
Ist neu für mich, sorry für meine OT Ausschweifung.
Systemd und PulseAudio, hmmm, nein danke.

Benutzeravatar
whisper
Beiträge: 3140
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Re: PDF2txt mit extrawurst

Beitrag von whisper » 07.11.2018 17:24:23

Dank eurer Vorschläge, Ideen usw. bin ich über Debianpdf2htmlex gestolpert, der erste Eindruck ist schonmal sehr gut, wenigsten kann der Browser das Ergebnis sauber rendern. Das war mit meinen ersten Tool nicht so.

Es geht um ein 250 Seiten großes Dokument, mal so als Hausnummer.
Danke euch, wenn ich da was brauchbares zaubern kann, werde ich die Schritte dokumentieren, das Ursprungsdokument ist leider nicht öffentlich.

(Edit)

Code: Alles auswählen

pdf2htmlEX -f 30 -l 200 --process-nontext 0 --process-outline 0 --optimize-text 1 --decompose-ligature 1 --embed-css 0 --embed-javascript 0 --embed-outline 0 --embed-font 1 --embed-image 0 --css-filename EinKatalog.css EinKatalog.pdf EinKatalog.html
Zwischenstand, das macht den generierten html code einigermassen erträglich
Jetzt wäre das extrahieren der gewünschten Inhalte angesagt, das ist aber Zukunftsmusik. Vielleicht gar nicht, kommt auf diverse Umstände an.

Antworten