PDF2txt mit extrawurst

whisper · Beitrag von **whisper** » 06.11.2018 15:21:23

PDF->txt Konverter gibt es ja reiclich.
pdf2text aus

python-pdfminer zum Beispiel macht in meinem konkreten Fall schon das, was ich suche.
Aber, ich möchte Überschriften, Beschreibungen und Absätze erhalten oder anderweitig markieren, damit ich das Ergebnis automatisiert in eine Datenbank bekomme.
Konkret also Schriftattribute markieren, oder unsortierte Listen, Aufzählungen usw.

Meine Frage ist, gibt es ein anderes Tool, das dies leistet?
Vielleicht wäre eine Umwandlung in html und dann mit awk o.ä. weiterverarbeiten einfacher..
Andere Ansätze?

Revod · Beitrag von **Revod** » 06.11.2018 17:12:56

Vielleicht Import in LO, oder

gpdftext, wobei letzteres nur in pdf oder reines ascii Text speichern kann.

Und vielleicht mit den mächtigen Tex Appsm z. B.

texworks, mit letzteres nicht gearbeitet, ist recht mächtig und daher relativ sehr aufwendig bis ich damit umgehen kann.

Ansonsten kenne ich nur 2 Freemium und der eine sollte in HTML exportieren können.

Beitrag von **Meillo** » 06.11.2018 18:27:12

Plain-Text ist ohne Auszeichnungen. Du willst aber Auszeichnungen haben, folglich musst du das PDF in ein Markup-Format (HTML, Tex, ...) konvertieren und nicht nach (Plain-)Text.

whisper · Beitrag von **whisper** » 06.11.2018 18:48:31

Meillo hat geschrieben:
06.11.2018 18:27:12
Plain-Text ist ohne Auszeichnungen. Du willst aber Auszeichnungen haben, folglich musst du das PDF in ein Markup-Format (HTML, Tex, ...) konvertieren und nicht nach (Plain-)Text.

Hih, klar, das ist ein Widerspruch.
Habe schon geguckt, der erzeugte html Code ist zwar eine unsäglich <div> seuche, aber machbar.
Derzeit ist es nicht konkret, will mich nur ein wenig proaktiv damit auseinandersetzen, könnte interessant werden.
@Revod:
ich werde mal sehen, mit welchem Tool der html Code am lesbarsten (bzw. leichter zu bearbeiten) ist.

Beitrag von **Meillo** » 06.11.2018 18:54:04

whisper hat geschrieben:
06.11.2018 18:48:31
Habe schon geguckt, der erzeugte html Code ist zwar eine unsäglich <div> seuche, aber machbar.

Je nachdem was genau du machen willst, kann dir vielleicht egal sein, wie der ganze Code aussieht, wenn du nur H1-Tags & Co. suchst.

Derzeit ist es nicht konkret, will mich nur ein wenig proaktiv damit auseinandersetzen, könnte interessant werden.

Je nach Input-PDFs und was du haben willst, koennte es ggf. erfolgsversprechender sein, OCR auf bestimmte Bereiche oder fuer bestimmte Schriftgroessen einzusetzen. Das nur mal als zusaetzlichen Gedankenanstoss.

eggy · Beitrag von **eggy** » 06.11.2018 18:57:59

Ich stand mal vor nem ähnlichen Problem, je nachdem, wie die PDF-Datei strukturiert war, hab ich mit pdftk ganz brauchbare Ergebnisse erzielt:

Code: Alles auswählen

pdftk 01.pdf dump_data |grep BookmarkTitle

Mit pdfinfo und dessen verschiedenen Optionen könnte evtl auch was sinnvolles rausfallen.

Revod · Beitrag von **Revod** » 06.11.2018 19:59:11

whisper hat geschrieben:
06.11.2018 18:48:31
...
@Revod:
ich werde mal sehen, mit welchem Tool der html Code am lesbarsten (bzw. leichter zu bearbeiten) ist.

... kann Dir

bluefish gerne empfehlen, weil es am besten die Anfang- und Abschluss Tags erkennt, sehr hilfreich bei verschachelte und lange HTML Code.

Als " wysiwyg " habe ich mich " BlueGriffon " eingewöhnt, es erkennt und färbt den <div> ein, sowie alle Tag der Syntax-

Etwas OT: Mit der Beschreibung von bluefish bin ich nicht ganz einverstanden damit, es kann viele Sprachen, doch ausgelegt ist für HTML und PHP, und kompilieren kann es nicht, daher für Software nur bedingt als solches verstehen, mächtig ist es alle Mal.

eggy · Beitrag von **eggy** » 06.11.2018 21:38:17

Sehr OT:

Revod hat geschrieben:
06.11.2018 19:59:11
Etwas OT: Mit der Beschreibung von bluefish bin ich nicht ganz einverstanden damit, es kann viele Sprachen, doch ausgelegt ist für HTML und PHP, und kompilieren kann es nicht, daher für Software nur bedingt als solches verstehen, mächtig ist es alle Mal.

Falls Du die Paketbeschreibung meinst: die sagt auch "Perl, php5-cli, make und java-compiler sind zwar nicht vorgeschlagen, werden aber unterstützt.". D.h. Du musst die entsprechenden Compiler installieren, die dann aufgerufen werden können. Die wenigsten Editoren enthalten eigene Compiler für höhere Sprachen, in der Regel rufen die alle nur make/gcc/clang usw auf.

Revod · Beitrag von **Revod** » 06.11.2018 23:33:36

...

geany

eggy hat geschrieben:
06.11.2018 21:38:17
Sehr OT:
...
Falls Du die Paketbeschreibung meinst: die sagt auch "Perl, php5-cli, make und java-compiler sind zwar nicht vorgeschlagen, werden aber unterstützt.". D.h. Du musst die entsprechenden Compiler installieren, die dann aufgerufen werden können. Die wenigsten Editoren enthalten eigene Compiler für höhere Sprachen, in der Regel rufen die alle nur make/gcc/clang usw auf.

Ja habe ich unter " Dokument > Sprachmodus " kann man das Unterschied zwischen wie einen echtes Compiler wie Geany und Bluefish erkennen, und auch über die Menü Angebot Optionen erkennt man sehr schnell wozu es am besten geeignet ist ( Ich wüsste keine Alternative ). Doch wie gesagt, es kann auch die wichtigsten Sprachen.

In meinen Augen hat es nur einen Nachteil, man hätte es in gtk2 belassen sollen... doch ich schlage vor, back to Topic...

PS: Sehe sehe soeben auf der Entwicklerseite,

Bluefish is a powerful editor targeted towards programmers and webdevelopers, ...

Ist neu für mich, sorry für meine OT Ausschweifung.

whisper · Beitrag von **whisper** » 07.11.2018 17:24:23

Dank eurer Vorschläge, Ideen usw. bin ich über

pdf2htmlex gestolpert, der erste Eindruck ist schonmal sehr gut, wenigsten kann der Browser das Ergebnis sauber rendern. Das war mit meinen ersten Tool nicht so.

Es geht um ein 250 Seiten großes Dokument, mal so als Hausnummer.
Danke euch, wenn ich da was brauchbares zaubern kann, werde ich die Schritte dokumentieren, das Ursprungsdokument ist leider nicht öffentlich.

(Edit)

Code: Alles auswählen

pdf2htmlEX -f 30 -l 200 --process-nontext 0 --process-outline 0 --optimize-text 1 --decompose-ligature 1 --embed-css 0 --embed-javascript 0 --embed-outline 0 --embed-font 1 --embed-image 0 --css-filename EinKatalog.css EinKatalog.pdf EinKatalog.html

Zwischenstand, das macht den generierten html code einigermassen erträglich
Jetzt wäre das extrahieren der gewünschten Inhalte angesagt, das ist aber Zukunftsmusik. Vielleicht gar nicht, kommt auf diverse Umstände an.

debianforum.de

PDF2txt mit extrawurst

PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst

Re: PDF2txt mit extrawurst