PDF Converter

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Mjolmiure
Beiträge: 16
Registriert: 16.08.2017 12:15:41

PDF Converter

Beitrag von Mjolmiure » 05.06.2018 10:07:38

Hallo zusammen,
ich suche einen guten PDF Converter mit dem man PDF in Word-Dateien umwandeln kann, ohne dass man sich gleich ein Virus holt. Habt ihr eine Idee?

debianoli
Beiträge: 4068
Registriert: 07.11.2007 13:58:49
Wohnort: Augschburg

Re: PDF Converter

Beitrag von debianoli » 05.06.2018 12:36:33

Für die Konvertierung von PDF zu MS-Word kenne ich unter Linux nichts.

Was geht: PDF mit LibreOffice Draw bearbeiten.

Es gibt recht viele PDF-Import-Plugins für MS Word, aber da musst du selber suchen.

wanne
Moderator
Beiträge: 7448
Registriert: 24.05.2010 12:39:42

Re: PDF Converter

Beitrag von wanne » 05.06.2018 14:43:51

PDF ist halt ein Bildformat vernünftig formatierten Text wirst du da eher nicht mehr daraus machen können. Du kannst text und Bilder retten aber Formatiert ist ein PDF nunmal nicht.

Daneben kann man noch massenhaft andere Sachen einbinden.
Wenn du Glück hast ist da schon ein Dokument drin. (Word heftet das docx glaube ich an.) Kannst du da wieder raus holen mit pdfdetach (poppler). (pdfdetach -list zeigt dir an was es gibt mit pdfdetach -save 1 pdf.pdf speicherst du das erste.)

Ist das nicht der Fall kannst du daraus halt irgend wie text oder Bilder extrahieren.
Per Copy und Paste mit poppler:

Code: Alles auswählen

pdfimages -all pdf.pdf /ordner/name #Bilder
pdftotext /home/wanne/systest/documentation/personen/Rene_Lange/cheatsheet/manual_xg6120_install.pdf -raw - #Text
Konvertierung einer ganzen Seite in ein großes PNG mit ghostscript:

Code: Alles auswählen

ghostscript -r1050x1485 -dBATCH  -dNOPAUSE -sDEVICE=png48 -sOutputFile=/tmp/out%d.png pdf.pdf
Über den Umweg HTML mit poppler und pandoc um docx zu erstellen:

Code: Alles auswählen

pdftohtml /home/wanne/systest/documentation/personen/Rene_Lange/cheatsheet/manual_xg6120_install.pdf -stdout | pandoc -f html -t docx -o /tmp/out.docx
Dann hast du ein docx, wo text und bilder hin übertragen wurden.
rot: Moderator wanne spricht, default: User wanne spricht.

wanne
Moderator
Beiträge: 7448
Registriert: 24.05.2010 12:39:42

Re: PDF Converter

Beitrag von wanne » 05.06.2018 14:50:07

ohne dass man sich gleich ein Virus holt.
PDF ist ein graus um sicher zu interpretieren. Lücken wirst du in praktisch jedem Interpreter finden.
Die von mir verwendeten Tools bei cvedetails:
https://www.cvedetails.com/vulnerabilit ... d5bce289f7
https://www.cvedetails.com/vulnerabilit ... a9b85b2882
Das wird für andere nicht viel anders aussehen. Aber wenigstens haben sie immer schneller reagiert, bevor es Exploits gab.
rot: Moderator wanne spricht, default: User wanne spricht.

Korodny
Beiträge: 704
Registriert: 09.09.2014 18:33:22
Lizenz eigener Beiträge: GNU Free Documentation License

Re: PDF Converter

Beitrag von Korodny » 05.06.2018 15:15:08

PDF ist ein Dokumentenformat (kein Bildformat, wie jemand hier im Thread fälschlicherweise behauptet hat), das für die Ausgabe/Weitergabe von Dokumenten gedacht ist die nicht mehr verändert werden sollen. Es gibt Software, die PDF-Dokumente wie normale Dokumente öffnen kann, aber das sind i.d.R. sehr teure Profi-DTP-Lösungen (Scribus m.W. auch) - die haben aber normalerweise keinen (verlustfreien) Word-Export.

Aus deiner Frage wird nicht ganz klar, was du hauptsächlich erreichen willst. Willst du Sicherheit vor Viren, oder die Dokumente weiter bearbeiten? Wenn es hauptsächlich um Viren geht, könnte man mal recherchieren, ob die (verlustfreie) Konvertierung PDF->Postscript und wieder zurück, da hilft: ich kenne mich mit PDF-Viren nicht aus - würde aber davon ausgehen dass bei der Konvertierung nach Postscript die meisten dynamischen Features wie Javascript, Flash o.ä. mangels Unterstützung im Postscript-Standard wegfallen und das Dokument dadurch weitgehend entschärft wird.

Wenn du PDF-Dokumente tatsächlich weiter bearbeiten willst, müsstest du den Anwendungsfall genauer beschreiben - dann können wir nach einer Lösung speziell für dieses Problem suchen. Das ist aber eigentlich immer mit zusätzlicher Arbeit verbunden und ziemlich umständlich.

wanne
Moderator
Beiträge: 7448
Registriert: 24.05.2010 12:39:42

Re: PDF Converter

Beitrag von wanne » 05.06.2018 15:43:58

Korodny hat geschrieben: ↑ zum Beitrag ↑
05.06.2018 15:15:08
PDF ist ein Dokumentenformat (kein Bildformat, wie jemand hier im Thread fälschlicherweise behauptet hat)
Wie Adobe das Nennt ist mir Wurst. Objektiv sind klassische PDF eine Kombination aus Vektorgrafikformat (Du hast Objekte an Koordinaten. Gehst du auf den passenden Wikipediaartikel wird PDF sogar als häufigstes Beispiel für ein solches genannt: https://en.wikipedia.org/wiki/Vector_graphics. ) und Conatinern (Weil es auch andere Formate wie PNG oder ähnliches einbetten kann.)
Im Gegensatz zu einer Markup Language wie RTF, ODF (odt), OOXML (docx)… die formatierten Text abspeichern.

Es gibt Software, die PDF-Dokumente wie normale Dokumente öffnen kann, aber das sind i.d.R. sehr teure Profi-DTP-Lösungen (Scribus m.W. auch) - die haben aber normalerweise keinen (verlustfreien) Word-Export.
Du kannst auch mit pdfedit oder inkscape pdfs bearbeiten. Es wird aber nie in der Art und weise wie in einem ursprünglichen Word Dokument gehen. Du hast nun mal keine Informationen mehr was Überschriften oder Absätze sind. Z.B. ist unmöglich zu entscheiden ob aus Platzmangel oder aus Stielgründen umgebrochen wurde. (Essenden es hat genug platz.)
rot: Moderator wanne spricht, default: User wanne spricht.

Benutzeravatar
heisenberg
Beiträge: 3473
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF Converter

Beitrag von heisenberg » 05.06.2018 15:45:23

Die PDF-Import-Funktion von LibreOffice ist auch eher bescheiden. Vieles ist nur als Bild(je nach Erzeugerprogramm des PDFs) dort drin und nicht bearbeitbar.

PDF ist halt nicht wirklich für das Bearbeiten gedacht.
... unterhält sich hier gelegentlich mangels wunschgemäßer Gesprächspartner mal mit sich selbst.

debianoli
Beiträge: 4068
Registriert: 07.11.2007 13:58:49
Wohnort: Augschburg

Re: PDF Converter

Beitrag von debianoli » 05.06.2018 16:08:02

heisenberg hat geschrieben: ↑ zum Beitrag ↑
05.06.2018 15:45:23
Die PDF-Import-Funktion von LibreOffice ist auch eher bescheiden. Vieles ist nur als Bild(je nach Erzeugerprogramm des PDFs) dort drin und nicht bearbeitbar.
Das finde ich nicht. Inzwischen ist bei LO 6 die Bearbeitungsfunktionen richtig gut.

Probleme machen eher seltsame Schriften im Dokument bzw Schriften als Pfade. Und natürlich irgendwelche Berechnungsfunktionen etc. Aber das funktioniert sowieso teilweise nur mit dem Adobe Reader.

Korodny
Beiträge: 704
Registriert: 09.09.2014 18:33:22
Lizenz eigener Beiträge: GNU Free Documentation License

Re: PDF Converter

Beitrag von Korodny » 05.06.2018 17:17:10

wanne hat geschrieben:Wie Adobe das Nennt ist mir Wurst.
Das "Portable Document Format" ist seit 20 Jahren ein ISO-Standard. Nicht Adobe nennt das so, sondern jeder außer dir.
wanne hat geschrieben:Im Gegensatz zu einer Markup Language wie RTF, ODF (odt), OOXML (docx)… die formatierten Text abspeichern.
PDF ist eine Seitenbeschreibungssprache, die natürlich ebenfalls formatierten Text abspeichert, ggfs. sind sogar die benötigten Schriftarten im PDF mit eingebettet.

wanne
Moderator
Beiträge: 7448
Registriert: 24.05.2010 12:39:42

Re: PDF Converter

Beitrag von wanne » 06.06.2018 03:04:25

wanne hat geschrieben: ↑ zum Beitrag ↑
05.06.2018 15:43:58
PDF ist eine Seitenbeschreibungssprache, die natürlich ebenfalls formatierten Text abspeichert,
Nein. Guck dir den Standard an. PDF kennt Text aber keine Formatierungen. (Genau wie z.B. SVG.) Immer nur x und y Koordinaten. Keine Absätze, keine Überschriften, keine Spalten...
wanne hat geschrieben: ↑ zum Beitrag ↑
05.06.2018 15:43:58
ggfs. sind sogar die benötigten Schriftarten im PDF mit eingebettet.
Eben. Genau wie man das von einem Grafikformat erwarten würde werden irgend welche Kurven abgespeichert. Das gleiche gilt für Kursiv oder ähnliches. Halt andere Bilder. Keine logische Schrägstellung oder ähnliches.
rot: Moderator wanne spricht, default: User wanne spricht.

jmar83
Beiträge: 962
Registriert: 20.06.2013 20:20:15
Wohnort: CH
Kontaktdaten:

Re: PDF Converter

Beitrag von jmar83 » 07.06.2018 09:31:30

Das Thema "PDF sauber zu einem anderen Dateiformat konvertieren" würde ich an deiner Stelle am besten vergessen, klappt grundsätzlich nicht. Wollte mal ein Template in PDF mit Platzhaltertags {$tag} machen, um daraus weitere PDF's zu generieren, praktisch unmöglich...
Freundliche Grüsse, Jan

Benutzeravatar
heisenberg
Beiträge: 3473
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF Converter

Beitrag von heisenberg » 07.06.2018 10:40:56

debianoli hat geschrieben: ↑ zum Beitrag ↑
05.06.2018 16:08:02
heisenberg hat geschrieben: ↑ zum Beitrag ↑
05.06.2018 15:45:23
Die PDF-Import-Funktion von LibreOffice ist auch eher bescheiden. Vieles ist nur als Bild(je nach Erzeugerprogramm des PDFs) dort drin und nicht bearbeitbar.
Das finde ich nicht. Inzwischen ist bei LO 6 die Bearbeitungsfunktionen richtig gut.

Probleme machen eher seltsame Schriften im Dokument bzw Schriften als Pfade. Und natürlich irgendwelche Berechnungsfunktionen etc. Aber das funktioniert sowieso teilweise nur mit dem Adobe Reader.
Ich habe hier einen Flyer mit LibreOffice Draw 5 erstellt und wollte dann nochmal per PDF-Import an anderer Stelle etwas bearbeitet(Viele Bilder und spezielle Schriftarten). Nach dem PDF-Import konnte ich keinerlei Texte editieren.

---

Was das Thema angeht:

Was ich von anderen höre, sind die kommerziellen Programme Abbby Fine Reader(OCR) und Adobe Acrobat da die einzigen, die es vernünftig hinbekommen ein Word-Dokument aus einem PDF zu erzeugen. Natürlich gegen entsprechend viel Geld.
... unterhält sich hier gelegentlich mangels wunschgemäßer Gesprächspartner mal mit sich selbst.

debianoli
Beiträge: 4068
Registriert: 07.11.2007 13:58:49
Wohnort: Augschburg

Re: PDF Converter

Beitrag von debianoli » 07.06.2018 11:13:49

heisenberg hat geschrieben: ↑ zum Beitrag ↑
07.06.2018 10:40:56
Ich habe hier einen Flyer mit LibreOffice Draw 5 erstellt und wollte dann nochmal per PDF-Import an anderer Stelle etwas bearbeitet(Viele Bilder und spezielle Schriftarten). Nach dem PDF-Import konnte ich keinerlei Texte editieren.
Dies hat mit den Export-Einstellungen beim Erstellen des Urspungs-Flyers zu tun. Wenn man beim Export von LO nach PDF im Export-Menü die Option "PDF/A-1a (ISO 19005-1)-Archiv" wählt, dann wandelt LO beim Export einige Seiten in komplette Grafiken um. Dies geschieht auf den Seiten, auf denen Grafiken mit Transparenzen und Text gemischt sind.

LO meldet dies auch beim Export, da der ISO-Standard keine Transparenzen unterstützt.

Antworten