PDF-Datei mit nicht-eingebetteten Schriften

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
LinuxFanKR13
Beiträge: 78
Registriert: 19.04.2020 10:01:02

PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von LinuxFanKR13 » 07.10.2021 00:52:49

Hallo Community,

ich verwende Debian 11 (bullseye) mit Kernel 5.10.0-8-amd64.

Von Banken und Versicherungen werden PDF-Dateien zum Herunterladen bereitgestellt, bei denen die verwendeten Schriftarten nicht eingebettet sind. Dies wird deshalb gemacht, damit die Dateien kleiner sind, was für diese Firmen bei der Menge an Korrespondenz natürlich irgendwo verständlich ist. Ich hingegen hätte erwartet, dass PDF/A zur Anwendung kommt. Hier ist das Einbetten der verwendeten Schriftarten gegeben (Pflicht).

Mein Vermutung ist nun, dass die PDF-Dateien unter Windows erzeugt werden, wo man bestimmte Schriftarten zur Verfügung hat. Deshalb habe ich das Paket ttf-mscorefonts-installer installiert und die entsprechenden Fonts sind auch unter /usr/share/fonts/truetype/msttcorefonts vorhanden.

Nun habe ich ein PDF, bei dem der PDF-Viewer Atril unter Eigenschaften/Schriften folgende Angaben ausgibt

Code: Alles auswählen

Arial+000040
Truetype
Nicht eingebettet

Arial,Bold+000041
Truetype
Nicht eingebettet
Ich verstehe nun nicht, warum das PDF immer noch mit irgendeiner Ersatz-Schrift (?) angezeigt und ausgedruckt wird. Dabei sind Zeichen manchmal sehr nah beieinander, an anderer Stelle sehr weit auseinander; es passt also nicht richtig.

Hat jemand einen Rat, woran das liegen könnte und wie ich das beheben kann?
Welche zusätzliche Informationen sind nötig, um Rat geben zu können?

Vielen Dank und viele Grüße

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von eggy » 07.10.2021 03:07:34

a) Bank anschreiben, Bildschirmfoto mitschicken. Kleiner Hinweis auf Dokumentenechtheit* und Barrierefreiheit schadet vermutlich nicht.
b) schon mal mit nem anderen Viewer versucht? okular, evince, mupdf, zathura ?

* : es könnt ja ein böser Mensch daherkommen und einen Font verteilen, der statt Minus ne Leerstelle anzeigt *ups*

LinuxFanKR13
Beiträge: 78
Registriert: 19.04.2020 10:01:02

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von LinuxFanKR13 » 07.10.2021 19:06:52

Hallo eggy, Hallo Community,

das genannte Beispiel ist ein PDF von einer Versicherung, aber von einer Bank habe ich PDFs mit dem gleichen Thema. Die Bank habe ich angeschrieben und deren IT-Dienstleister hat dann folgendes geantwortet:
In den PDF-Dokumenten des elektronischen Auszugs werden folgende Schriftarten verwendet: Arial MT, Arial MT Bold, Adobe Sans MM, Adobe Sans MM Bold.

Aus Platzgründen sind in den elektronischen Dokumenten nicht alle Schriften eingebettet.
Will Ihr Kunde an seinem PC den elektronischen Kontoauszug ausdrucken, stellt das kein Problem dar, solange der Kunde an seinem PC das Betriebssystem Windows nutzt. Nutzt der Kunde ein anderes Betriebssystem (z.B. Linux), kann es bei der Darstellung zu Problemen kommen, wenn die Schriftarten bei dem Betriebssystem nicht installiert sind und das Betriebssystem ersatzweise andere Schriftarten verwendet.

Da sich die Dateigröße des elektronischen Kontoauszugs beim Einbetten der Schriftarten mehr als verdoppelt, ist auch keine Änderung geplant.
Daher hilft mir die Antwort a) nicht weiter, weil die Ursache nicht beseitigt wird.

zu b) nein, einen anderen PDF-Viewer habe ich noch nicht ausprobiert. Für mich stellt sich eher die Frage, ob und wie Atril die Info über die Schriften umsetzt, denn Arial ist jetzt über die msttcorefonts ja jetzt auf dem System vorhanden, nutzt es aber nicht. Daher die Frage, ob mir jemand einen Tipp geben kann, wo ich weiter suchen könnte, damit Atril die richtige Schrift findet.

Vielen Dank und viele Grüße

Benutzeravatar
DebianNeuling2020
Beiträge: 124
Registriert: 22.03.2020 12:16:43

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von DebianNeuling2020 » 07.10.2021 19:24:03

Dabei sind Zeichen manchmal sehr nah beieinander, an anderer Stelle sehr weit auseinander; es passt also nicht richtig.
Das gleiche Problem hatte ich auch unter StarMoney und als Kunde der Kreissparkasse. Hatte damals sogar mit der Bank Kontakt aufgenommen
aber die konnten oder wollten mir nicht helfen.
Also was man mal ausprobieren könnte ist Folgendes:
Sich die Fonts Arial und Arial Bold besorgen, umbenennen (Arial+000040) und (Arial+000041), und in entsprechenden Fontordner kopieren (also bei Linux Mint habe ich es
hinbekommen TrueType Fonts in entsprechende Ordner zu kopieren und zu verwenden. Ob das bei Debian geht habe ich noch nicht probiert.
Tower PC Intel Core i5 4x3,4 GHz / 16 GB DDR3 RAM, GeForce GT 1030 mit 2 GB GDDR5
128 GB SSD + 500 GB HDD, Drucker: Brother DCP-J572DW, BS: Debian Buster XFCE

Benutzeravatar
DebianNeuling2020
Beiträge: 124
Registriert: 22.03.2020 12:16:43

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von DebianNeuling2020 » 07.10.2021 19:37:54

Eben ausprobiert:
Verwende den Fontmanager von Debian. Damit habe ich eben zum Testen eine TrueType-Schrift installiert. Also funktionieren tut es schon.
Jetzt müsste man noch jemanden finden der einem die Arial zur Verfügung stellt. Vielleicht kann man dann das Problem lösen.
Tower PC Intel Core i5 4x3,4 GHz / 16 GB DDR3 RAM, GeForce GT 1030 mit 2 GB GDDR5
128 GB SSD + 500 GB HDD, Drucker: Brother DCP-J572DW, BS: Debian Buster XFCE

Benutzeravatar
DebianNeuling2020
Beiträge: 124
Registriert: 22.03.2020 12:16:43

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von DebianNeuling2020 » 07.10.2021 20:09:55

Habe noch mal meine PDF-Kontoauszügen wegen den Schriften nachgesehen: Also Schriften sind alle als eingebettet gekennzeichnet (sind neben Arial und Wingdings auch eine Sparkassenschrift enthalten) und trotzdem auch das Problem das die Buchstabenabstände (Kerning) nicht stimmen. Sehe für mich da auch keine Lösung.
Tower PC Intel Core i5 4x3,4 GHz / 16 GB DDR3 RAM, GeForce GT 1030 mit 2 GB GDDR5
128 GB SSD + 500 GB HDD, Drucker: Brother DCP-J572DW, BS: Debian Buster XFCE

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von eggy » 07.10.2021 21:13:33

Die Frage nach dem anderen Viewer war, um rauszufinden, obs an dem Viewer liegt, oder ob die Fonts einfach nur an der falschen Stelle sind. Aber wenn Dir das zuviel Arbeit ist ...

Benutzeravatar
DebianNeuling2020
Beiträge: 124
Registriert: 22.03.2020 12:16:43

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von DebianNeuling2020 » 07.10.2021 22:00:56

Aber wenn Dir das zuviel Arbeit ist ...
Sag mal "eggy", geht es noch? Kannst du nicht lesen. Wenn Schriften eingebettet sind gibt es im allgemeinen keine Probleme mit der Darstellung (Viewer sollte egal sein) und dem Ausdrucken. Ich hatte das Problem selbst auf einem Windows-System. Es liegt einfach an der Erstellung bzw. vielleicht auch dem PDF-Format in welches generiert wurde. Bei meinen Auszügen wurde PDF/A-1B generiert. Mit diesem Format habe ich keine Erfahrung.
Die Kontoauszüge wurden bei mir teilweise auch über die Internetseite der Bank generiert. Vielleicht liegt da das Problem mit den Schriften.
Tower PC Intel Core i5 4x3,4 GHz / 16 GB DDR3 RAM, GeForce GT 1030 mit 2 GB GDDR5
128 GB SSD + 500 GB HDD, Drucker: Brother DCP-J572DW, BS: Debian Buster XFCE

LinuxFanKR13
Beiträge: 78
Registriert: 19.04.2020 10:01:02

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von LinuxFanKR13 » 07.10.2021 23:27:04

Hallo DebianNeuling2020, Hallo eggy, Hallo Community,

PDF/A ist ein Standard für PDF zur Archivierung und dieser Standard beinhaltet, dass die Schriften eingebettet sein müssen. Sonst macht ein Archivieren ja wenig Sinn, wenn ich dann später auf "irgendeinem" System eine archivierte PDF-Datei ansehen will.

Ich hab jetzt mal noch mupdf installiert, Aufruf per Kommandozeile im Terminal mit mupdf Datei. Dort werden die Dateien "richtiger" angezeigt, offensichtlich hat schon der Viewer einen Einfluss.

Außerdem habe ich mal unter /usr/local/share/fonts/truetype/msttcorefonts zwei Links mit dem Namen Arial+00040 nach /usr/share/fonts/truetype/msttcorefonts gemacht und natürlich auch fc-cache -f aufgerufen.

Bei Atril ändert das gar nichts. Auf die Schnelle konnte ich nicht feststellen, wie man mit mupdf ausdruckt.
Ich muss wohl weitere Viewer ausprobieren, um einen zu finden, der die msttcorefonts verwendet und eine benutzerfreundliche Bedienung hat. Da der Viewer auch von nicht-PC-affinen Menschen benutzt wird, ist ein Programm mit einem möglchst intuitiven GUI erforderlich. Oder es gelingt mir doch noch Atril zu bewegen, die msttcorefonts zu nutzen.

Viele Grüße

LinuxFanKR13
Beiträge: 78
Registriert: 19.04.2020 10:01:02

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von LinuxFanKR13 » 08.10.2021 00:12:10

Hallo eggy, Hallo Community,

ich habe mal noch evince getestet.
Dort wird das PDF auch nicht richtig angezeigt. Dabei habe ich die Links in /usr/local/share/fonts/... wieder entfernt.

okular stammt aus der KDE-Umfeld. Da ich xfce4 unter Debian 11 bullseye nutze, sollen eine Vielzahl von Bibliotheken mit installiert werden. Dies habe ich erst mal nicht gemacht.
zathura ist laut Beschreibung ein Viewer, der nur mit Tastaturbefehlen (vim-ähnlich) bedient werden kann, damit entspricht dies nicht den Anforderungen.

Also mal weiter suchen, wie Atril die Schriften identifiziert und verarbeitet.

Viele Grüße

debianoli
Beiträge: 4073
Registriert: 07.11.2007 13:58:49
Lizenz eigener Beiträge: MIT Lizenz

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von debianoli » 08.10.2021 06:17:18

Wie zeigt denn Firefox das PDF an?

willy4711

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von willy4711 » 08.10.2021 11:49:47

LinuxFanKR13 hat geschrieben: ↑ zum Beitrag ↑
07.10.2021 00:52:49
Von Banken und Versicherungen werden PDF-Dateien zum Herunterladen bereitgestellt, bei denen die verwendeten Schriftarten nicht eingebettet sind. Dies wird deshalb gemacht, damit die Dateien kleiner sind, was für diese Firmen bei der Menge an Korrespondenz natürlich irgendwo verständlich ist. Ich hingegen hätte erwartet, dass PDF/A zur Anwendung kommt. Hier ist das Einbetten der verwendeten Schriftarten gegeben (Pflicht).
Hab nun extra mal nachgesehen, wie das bei meiner Bank (comdirect) ist:
  • Format: PDF/A-1B
    Schriften: MarkOffcPro --> True Type eingebettet. :!:
Es ist also nicht so, dass alle Banken das so machen, sondern dass das vielleicht mache Banken machen, aber
bei dem Format PDF/A-1B ist das auf jeden Fall nicht zulässig. Dort müssen alle Schriften eingebettet sein.
Der Sinn ist ja gerade, dass so ein Dokument unabhängig vom Reader und dem Betriebssystem lesbar sein muss.
Ich kann meine Dokumente mit allem und jedem öffnen - sehen immer gleich aus.

Zum Nachlesen Tabelle: Vergleich PDF/A-1a und PDF/A-1b in :
https://www.pdfa.org/wp-content/until20 ... pdfa1b.pdf

Ich finde, dass man das heutzutage verlangen kann.
Schließlich wollen wir ja alle digitalisiert werden :mrgreen: :facepalm:

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von eggy » 08.10.2021 16:04:59

LinuxFanKR13 hat geschrieben: ↑ zum Beitrag ↑
08.10.2021 00:12:10
zathura ist laut Beschreibung ein Viewer, der nur mit Tastaturbefehlen (vim-ähnlich) bedient werden kann, damit entspricht dies nicht den Anforderungen.
"zathura mein.pdf" und entweder rendert es richtig oder nicht.
Es geht ja nicht darum, dass Du den Viewer wechseln sollst, sondern dass man nen Vergleich hat, ob bzw in welchen Programmen es richtig gerendert wird und in welchen nicht. Es gibt nämlich unterschiedliche Arten wie PDF angezeigt werden (u.a. libcairo/libpoppler).
LinuxFanKR13 hat geschrieben: ↑ zum Beitrag ↑
08.10.2021 00:12:10
Also mal weiter suchen, wie Atril die Schriften identifiziert und verarbeitet.
Debianstrace, damit findest raus, wo zugegriffen wird

Aber, da es vermutlich nicht am Programm, sondern sehr viel wahrscheinlicher an der Renderlib liegt, macht's mehr Sinn erstmal rauszufinden, ob es an der Renderlib liegt. Und das geht im "ich probier mal ob's bei anderen Tools geht und schau dann mal, ob sich da auffällige Überscheidungen bei den genutzten Libs zeigen oder nicht" einfacher als wenn man jetzt anfängt low-level zu debuggen. Kann man auch machen, wie gesagt mit strace/ltrace, bzw. mit gdb, oder mit Debugausgaben in den Code des genutzten Anzeigetools schreiben, um auszugeben, welche Parameter den calls zur Renderlib mitgegeben werden. Ist bei freier Software ja alles recht einfach möglich. Ich würde trotzdem bei "Erkundung der Mitbewerbersituation" anfangen.

und @DebianNeuling2020: komm mal wieder runter.

Huo
Beiträge: 614
Registriert: 26.11.2017 14:03:31
Wohnort: Freiburg

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von Huo » 08.10.2021 17:53:21

Mit den Befehlen

Code: Alles auswählen

fc-match Arial+000040
und

Code: Alles auswählen

fc-match Arial,Bold+000041
kannst du ermitteln, durch welche Schriften diese Alias-Fonts substituiert werden. Wenn ich mich nicht irre, sollten sich die "Ersatzschriften" ggf. in der Datei /etc/fonts/conf.d/30-metric-aliases.conf ändern lassen.

Benutzeravatar
DebianNeuling2020
Beiträge: 124
Registriert: 22.03.2020 12:16:43

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von DebianNeuling2020 » 08.10.2021 18:10:23

Habe jetzt mal die Kontoauszüge meiner neuen Bank nachgesehen. Hier sind die Schriften auch alle eingebettet (PDF-Format 1.2), werden aber von der Bank generiert und mir zum Download zur Verfügung gestellt. Ich glaube das hier das Problem liegt. Die Auszüge meiner alten Bank (Kreissparkasse) wurden von mir ja erst auf der Internetseite der Bank ausgewählt und (zb von / bis) dann als PDF generiert und gespeichert. Hängt es vielleicht mit dem Browser zusammen den man verwendet?
Tower PC Intel Core i5 4x3,4 GHz / 16 GB DDR3 RAM, GeForce GT 1030 mit 2 GB GDDR5
128 GB SSD + 500 GB HDD, Drucker: Brother DCP-J572DW, BS: Debian Buster XFCE

LinuxFanKR13
Beiträge: 78
Registriert: 19.04.2020 10:01:02

Re: PDF-Datei mit nicht-eingebetteten Schriften

Beitrag von LinuxFanKR13 » 10.10.2021 17:23:33

Hallo Community,

ich möchte folgenden Zwischenstand mitteilen:

1. Dass eine PDF-Datei im PDF/A-Format eingebettete Schriften enthält, habe ich ja bereits in meinem ersten Beitrag geschrieben. Ein anderes Format ist aus meiner Sicht auch gar nicht sinnvoll, weil ich beim Erzeugen der PDF-Datei ja nie sagen kann, auf welchem System diese Datei mal wieder geöffnet wird. Allerdings musste ich selbst bei LibreOffice auf meinem System den Haken erst setzen, dass dieses Format zum Einsatz kommt. Wenn eine Vielzahl an Behörden, Banken, Versicherungen usw. dieses Format bereits nutzen, ist das sehr lobenswert. Derzeit ist das aber noch nicht überall der Fall und als einzelner kann man zwar bei den genannten Institutionen auf den Mangel hinweisen, bewegen wird man in der Regel nichts. Den Teil können wir damit abschließen :D.

2. Zur weiteren Suche habe ich nun die PDF-Datei mit den beiden Schriften Arial+000040 und Arial,Bold+000041
verwendet.

Code: Alles auswählen

$ fc-match 'Arial+000040'
Vera.ttf: "Bitstream Vera Sans" "Roman"

$ fc-match 'Arial,Bold+000041'
Arial.ttf: "Arial" "Standard"
Ich zeige die PDF-Dateien mit folgenden Programmen an:
  • atril
  • evince
  • firefox-esr
  • google-chromium
  • Adobe Acrobat Reader DC (2021.001.20145) unter macOS Catalina 10.15.7 in einer QEMU-virtuellen Maschine als „Referenz“
Die jeweiligen Linux-Programmversionen kommen aus Debian 11.1 bullseye; ich verwende nur die stable-Version inkl. Sicherheitsupdates, bisher keine backports-Pakete

Bei Atril und Evince wird die PDF-Datei nicht korrekt angezeigt, der Abstand zwischen den Großbuchstaben am Wortanfang und den nächsten Buchstaben ist zu groß.
Evince zeigt im Vergleich zu Atril jedoch genauer an, welche Schriften tatsächlich geladen werden, nämlich Bitsteam Vera Sans Bold (/usr/share/fonts/truetype/ttf-bitstream-vera/VeraBd.ttf) und Arial Negreta (/usr/share/fonts/truetype/msttcorefonts/Arial_Bold.ttf).
Firefox-esr zeigt die Datei „korrekter" an, mit strace habe ich herausgefunden, dass wohl nicht nur Vera.ttf, sondern auch VeraMono.ttf geladen wird, allerdings habe ich keinen Eintrag für Arial gefunden. Wenn man sehr stark vergrößert, habe ich den Eindruck, dass man erkennt, dass die Großbuchstaben aus einem anderen Zeichensatz sind. Google Chromium ist identisch zu Firefox-esr.
Beim Acrobat Reader unter macOS wird angezeigt, dass für Arial+000040 die Schrift Adobe Sans MM und für Arial,Bold+000041 die Schrift Arial,Bold+000041 verwendet wird.

Das Problem liegt also wohl an den Anzeigeprogrammen Atril und Evince, die die Maße der einzelnen Zeichen anders behandeln als Firefox-esr und Google Chromium.

Abhilfe ist also zunächst mal die Nutzung von Firefox-esr für das Anzeigen von PDFs mit nicht-eingebetteten Schriften. Eine nicht ganz befriedigende Lösung, aber immerhin eine Lösung :).

Viele Grüße

Antworten