PDF: Inhalt mögl. verlustfrei extrahieren

Sound, Digitalkameras, TV+Video und Spiele.
Antworten
michaa7
Beiträge: 4611
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von michaa7 » 22.06.2021 17:31:22

Ich habe mir Noten als ***PDF*** heruntergeladen. Jeder Satz (movimento) steht auf einer eigenen Seite. Ich möchte diese gerne soweit möglich zusammenfassen.

Zur Vermeidung von unnötigen Umrechnungverlusten möchte ich den Inhalt möglichst in Orginalauflösung extrahieren:

Beim Import mit Gimp müßte ich aber ***frei Hand*** eine Auflösung vorgeben, also raten.

Mit identify (imagemagick) erhalte ich folgendes:
identify telemann-partita-no3-ii-presto.pdf
telemann-partita-no3-ii-presto.pdf[0] PDF 612x828 612x828+0+0 16-bit sRGB 2858B 0.000u 0:00.000
Mit identify verbose:
identify -verbose telemann-partita-no3-ii-presto.pdf
Image:
Filename: telemann-partita-no3-ii-presto.pdf
Format: PDF (Portable Document Format)
Mime type: application/pdf
Class: DirectClass
Geometry: 595x842+0+0
Resolution: 72x72
Print size: 8.26389x11.6944
Units: Undefined
Colorspace: sRGB
Type: Bilevel
Base type: Undefined
Endianness: Undefined
Depth: 16/8-bit
...
< und noch nen halben kilometer mehr Angaben>
Die Unterschiede der beiden Ausgaben (612x828+0+0 vs 595x842+0+0) sowie die Auflösung 72x72 (pro was?) fördern nicht mein Verständnis.

Im Grunde möchte ich nichts anderes als ein Kommando welches mir den Inhalt als bitmap (png, jpg, was-weiß-ich) ***in Orginalauflösung*** ausgibt.

Jemand Ahnung wie ich das mache?


PS:
Falls das jemand testen will: Die Noten habe ich hier her und sie sind allem Anschein nach frei:
https://www.flutetunes.com/composers.php?id=92
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von eggy » 22.06.2021 17:43:51

versuch "pdfimages", sollte in poppler-utils enthalten sein

Benutzeravatar
frox
Beiträge: 966
Registriert: 06.08.2004 16:29:44
Wohnort: Köln

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von frox » 22.06.2021 17:53:13

Ich weiß jetzt nicht, warum du das für diesen bestimmten Fall explizit extrahieren willst.
Ich persönlich würde dafür die PDFs in einem Ordner sammeln und dann z.B. via

Code: Alles auswählen

pdftk *.pdf output Telemann_Fantasia_XY.pdf
zusammenfassen.
(pdftk müsste dann halt installiert sein, und ggf. müssten die PDFs durchnummeriert werden, bzw. deren Nummerierung geändert. Sonst hast du die 11 vor der 1.)
Gruß, Fred

Die Zeit salzt alle Wunden

Benutzeravatar
Meillo
Moderator
Beiträge: 8782
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von Meillo » 22.06.2021 18:12:22

michaa7 hat geschrieben: ↑ zum Beitrag ↑
22.06.2021 17:31:22
Im Grunde möchte ich nichts anderes als ein Kommando welches mir den Inhalt als bitmap (png, jpg, was-weiß-ich) ***in Orginalauflösung*** ausgibt.
Eine Vektorgraphik hat keine Originalaufloesung. ;-)

Natuerlich kommt es darauf an, was fuer Daten wirklich im PDF stecken, aber es koennen gut moeglich Vektordaten (d.h. die Noten sind eine Schriftart) sein. Wenn ich mir anschaue, dass das PDF nur 70k gross ist und die Noten bei sehr grossen Zoomstufen immer noch gestochen scharf sind, dann ist quasi sicher, dass es Vektordaten sind.

Folglich gibt es schlichtweg keine Originalaufloesung (weil Vektordaten geometrische Zeichenanweisungen und eben keine Bitmaps sind). Du kannst sie nur in eine beliebigen Aufloesung rastern -- welche das ist, ist ganz dir ueberlassen. Du kannst es mit 200px, mit 2000px, mit 20000px oder auch mit 2 Mio Pixeln tun. ;-)


Dein eigentliches Problem solltest du aber mit dem PDF direkt (also weiterhin im Vektorraum) loesen. Debianpdftk ist ja schon erwaehnt worden.
Use ed once in a while!

fischig
Beiträge: 3601
Registriert: 24.12.2019 12:25:08
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von fischig » 22.06.2021 18:45:37

Schon mal versucht, den Telemann musescore-importtauglich (notfalls midi) im Netz zu bekommen?

michaa7
Beiträge: 4611
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von michaa7 » 22.06.2021 19:15:08

Meillo hat geschrieben: ↑ zum Beitrag ↑
22.06.2021 18:12:22
michaa7 hat geschrieben: ↑ zum Beitrag ↑
22.06.2021 17:31:22
Im Grunde möchte ich nichts anderes als ein Kommando welches mir den Inhalt als bitmap (png, jpg, was-weiß-ich) ***in Orginalauflösung*** ausgibt.
Eine Vektorgraphik hat keine Originalaufloesung. ;-)
...
Folglich gibt es schlichtweg keine Originalaufloesung (weil Vektordaten geometrische Zeichenanweisungen und eben keine Bitmaps sind).

...

Dein eigentliches Problem solltest du aber mit dem PDF direkt (also weiterhin im Vektorraum) loesen. Debianpdftk ist ja schon erwaehnt worden.
Dass das mal Vektordaten waren war mir schon klar, dass sie es hier noch sind vielleicht auch, aber dass ich sie (in Grenzen) als PDF immer noch bearbeiten kann, und dass pdftk das kann - wenn ich das richtig verstehe - wußte ich bislang nicht . Danke für den Hinweis.

Wobei nun mein erster Eindruck dass das wohl doch ncihts taugt. Ich müßte ja schon leere Bereiche und sich wiederholende Kopfzeilen abschneiden können und ggf. auch zwischen Notenzeilen einen Seitenumbruch einfügen können. Das wird im Kommandozeilenblindflug nichts.
Zuletzt geändert von michaa7 am 22.06.2021 19:23:47, insgesamt 1-mal geändert.
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

michaa7
Beiträge: 4611
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von michaa7 » 22.06.2021 19:18:11

fischig hat geschrieben: ↑ zum Beitrag ↑
22.06.2021 18:45:37
Schon mal versucht, den Telemann musescore-importtauglich (notfalls midi) im Netz zu bekommen?
Das gibt es dort auch als midi. Aber leider mit ausnotierten Trillern usw. Das müßte also erst wieder umnotiert werden. Wenn das wie oben beschrieben mit pdftk auf Vektrorebene editierbar ist, dann ist das die schnellere Lösung ... glaube ich.

Danke
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

fischig
Beiträge: 3601
Registriert: 24.12.2019 12:25:08
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von fischig » 22.06.2021 19:21:49

Mit diesen Suchbegriffen habe ich bei startpage einiges gefunden (nicht nur musescore): Georg Philipp Telemann fantasia midi.
Ob's weiterhilft? Musst du selbst gucken!

Schön, mal wieder was Musikträchtiges von Dir zu lesen! :THX:

michaa7
Beiträge: 4611
Registriert: 12.12.2004 00:46:49
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von michaa7 » 22.06.2021 22:56:39

fischig hat geschrieben: ↑ zum Beitrag ↑
22.06.2021 19:21:49
...
Schön, mal wieder was Musikträchtiges von Dir zu lesen! :THX:
Da weiß ich gerade nicht wie ich zu dieser Anteilnahme gelange, aber danke.


Zu Problem, von allem was ich ausprobiert habe ist mein Problem wohl am besten (am handlichsten) mit scribus zu lösen. Es erkennt die "Schrift" des Natationsprgramms und setzt diese fehlerfrei um (im Gegensatz zu OO-Draw). Man kann den Inhalt blockweise auswählen, kopieren löschen, verschieben, was vermutlich für meine Zwecke reichen wird.

Allerdings kämpfe ich gerade mit einem ganz trivialen Scribus Problem (hat mit der PDF Bearbeitung selbst nichts zu tun sondern betrifft hinzugefügten Text und Textrahmen) Dazu mache ich aber einen gesonderten thread auf.

Danke für den Hinweis auf den vektorbasierten Inhalt. Das hat mich überhaupt erst auf den Gedanken gebracht nach derartigen Lösungen zu suchen.
gruß

michaa7

-------------------------------
Menschen ändern gelegentlich ihre Ansichten, aber nur selten ihre Motive. (Oskar Negt)

fischig
Beiträge: 3601
Registriert: 24.12.2019 12:25:08
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF: Inhalt mögl. verlustfrei extrahieren

Beitrag von fischig » 23.06.2021 20:06:41

Danke für den Hinweis auf den vektorbasierten Inhalt.
Ich glaube, der Dank gebührt Meillo.

Antworten