Zeichensatz

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
Benutzeravatar
buntewolke
Beiträge: 176
Registriert: 19.06.2021 17:05:28

Zeichensatz

Beitrag von buntewolke » 14.08.2022 08:19:02

Hallo,

ist die Annahme richtig, dass mit der Installation von zusätzlichen Zeichensätzen/ Sprachen in Debian die Ursache für die Entstehung von Plaintext-Dokumenten mit kryptischen Zeichen sein könnte? Im Editor - ich kann nicht sagen ob dies Mousepad oder GVim gewesen ist - wurden mir kryptische Zeichen anstelle von Sonderzeichen präsentiert. Ich habe nicht dokumentiert, welche Datei konkret es ist, ich weiß nur, dass dies eine .desktop-Datei war. Ich war zu dem Zeitpunkt dabei, ein anderes Problem zu lösen und mir ist erst nachträglich eingefallen, dass es wichtig ist bei der Konfiguration meiner Arbeitsumgebung und bei der Wahl des Editors dafür zu sorgen, dass derart Zeichensatzprobleme minimiert werden.

Wie erwähnt, einmal habe ich im Verdacht die Installation von zusätzlichen Zeichensätzen. Eine Tatsache ist aber, dass ich keine Zeichensatz-Probleme hatte, bevor ich angefangen habe, den GVim-Editor zu nutzen. Vlt. entstehen die kryptischen Zeichen, wenn man die gleiche Datei nacheinender mit Mousepad oder GVim oder umgekehrt bearbeitet?

Im Windows-Kontext bin dem Zeichensatzproblem begegnet, wo mein Lieblingseditor kryptische Zeichen erzeugte, weil er keine UTF-Zeichen darstellen konnte bzw. nur über Umwege mit einem Plugin. Dieses Zeichensatzproblem gehört scheinbar zu der EDV/ IT wie Pech zu Schwefel 8O.

gruss, buntewolke
bin unterwegs mit
Debian, Version 11 (bullseye)

DeletedUserReAsG

Re: Zeichensatz

Beitrag von DeletedUserReAsG » 14.08.2022 08:26:57

buntewolke hat geschrieben: ↑ zum Beitrag ↑
14.08.2022 08:19:02
Dieses Zeichensatzproblem gehört scheinbar zu der EDV/ IT wie Pech zu Schwefel
Stimmt: rational gesehen haben Pech und Schwefel rein nichts miteinander zu tun; der gefühlte Zusammenhang ergibt sich aus alten Geschichten. Ebenso ist’s beim Zeichensatz: wenn es keinen nachvollziehbaren Grund dagegen gibt, nutzt man heute überall UTF-8, und hat keinerlei Probleme.

Benutzeravatar
Meillo
Moderator
Beiträge: 8813
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Zeichensatz

Beitrag von Meillo » 14.08.2022 09:10:05

buntewolke hat geschrieben: ↑ zum Beitrag ↑
14.08.2022 08:19:02
ist die Annahme richtig, dass mit der Installation von zusätzlichen Zeichensätzen/ Sprachen in Debian die Ursache für die Entstehung von Plaintext-Dokumenten mit kryptischen Zeichen sein könnte?
Jein.

Natuerlich, wenn dein ganzes System nur Englisch ist und damit nur auf US-ASCII basiert, dann wirst du so gut wie keine Zeichensatzprobleme haben. Aber die Installation von Locales (was du hier wohl mit Zeichensaetzen/Sprachen meinst) fuehrt nicht notwendigerweise zu Zeichensatzproblemen, es kann sie auch reduzieren.

Unklar ist, was du mit ``kryptischen Zeichen'' meinst. Meist ist das die Folge wenn du eine Datei, die in einem Zeichensatz und Encoding A gespeichert ist, mit einem Zeichensatz und Encoding B oeffnest. Das ist wie wenn ein Text auf Italienisch geschrieben ist und du liest ihn auf Spanisch. Manche Teile machen weiterhin Sinn und sehen ganz normal aus und andere sind unverstaendlich.

Entscheidend sind dann zwei Fragen:

1) Welchen Zeichensatz/Encoding hat die Datei -- das kann man mit `file -i' rausfinden
2) Mit welchem Zeichensatz/Encoding arbeitet der Editor -- im Vim `:set fenc'

Das muss zusammenpassen. Normalerweise sollte auf einem heutigen Debian alles in Unicode/UTF-8 sein.
Use ed once in a while!

Benutzeravatar
buntewolke
Beiträge: 176
Registriert: 19.06.2021 17:05:28

Re: Zeichensatz

Beitrag von buntewolke » 14.08.2022 10:03:07

niemand hat geschrieben: ↑ zum Beitrag ↑
14.08.2022 08:26:57
buntewolke hat geschrieben: ↑ zum Beitrag ↑
14.08.2022 08:19:02
Dieses Zeichensatzproblem gehört scheinbar zu der EDV/ IT wie Pech zu Schwefel
Ebenso ist’s beim Zeichensatz: wenn es keinen nachvollziehbaren Grund dagegen gibt, nutzt man heute überall UTF-8, und hat keinerlei Probleme.
In der Theorie klingt es bestechend einfach und einleuchtend :) . Die Realität ist aber, dass dieses Problem zahlreiche Wiki-Seiten - ein Beispiel Zeichensatz-Konverter [1] füllt, weil - suggeriert mir der Artikel [1] - scheinbar auch bei der UTF-8-Kodierung können ohne zusätzliche Konvertierung Probleme entstehen - oder ist diese meine Annahme falsch :?:.
Meillo hat geschrieben: ↑ zum Beitrag ↑
14.08.2022 09:10:05
1) Welchen Zeichensatz/Encoding hat die Datei -- das kann man mit `file -i' rausfinden
2) Mit welchem Zeichensatz/Encoding arbeitet der Editor -- im Vim `:set fenc'

Das muss zusammenpassen. Normalerweise sollte auf einem heutigen Debian alles in Unicode/UTF-8 sein.
Bei Mousepad habe ich geprüft - als Standard ist Speicherung in UTF-8 eingerichtet. Bei DebianGVim kann ich nicht erkennen, welcher Zeichensatz mit fenc definiert ist - s. Screenshot. Frage zum Screenshot - welchen Zeichensatz definiert die Einstellung

Code: Alles auswählen

fenc=
Scheinbar

Code: Alles auswählen

charset=us-ascii
? S. dazu die Ausgabe "file -i " unten. Warum wird gerade dieser Wert charset=us-ascii definiert? Ich habe in Gvim keine der Satandardeinstellungen geändert.

3769

Code: Alles auswählen

user@debian:~$ locale
LANG=de_DE.UTF-8
LANGUAGE=
LC_CTYPE="de_DE.UTF-8"
LC_NUMERIC="de_DE.UTF-8"
LC_TIME="de_DE.UTF-8"
LC_COLLATE="de_DE.UTF-8"
LC_MONETARY="de_DE.UTF-8"
LC_MESSAGES="de_DE.UTF-8"
LC_PAPER="de_DE.UTF-8"
LC_NAME="de_DE.UTF-8"
LC_ADDRESS="de_DE.UTF-8"
LC_TELEPHONE="de_DE.UTF-8"
LC_MEASUREMENT="de_DE.UTF-8"
LC_IDENTIFICATION="de_DE.UTF-8"
LC_ALL=
user@debian:~$ 
Und an dieser Stelle zurück zu der Empfehlung
niemand hat geschrieben: ↑ zum Beitrag ↑
14.08.2022 08:26:57
Ebenso ist’s beim Zeichensatz: wenn es keinen nachvollziehbaren Grund dagegen gibt, nutzt man heute überall UTF-8, und hat keinerlei Probleme.
Auch dann, wenn ein Benutzer oder eine Benutzerin sich vorgenommen hat, dieser Empfehlung zu folgen, bei GVim ist die Umsetzung für eine(n) Durschnittsnutzer:in - meine Meinung - nicht trivial. Kommt ein(e) Durschnittsnutzer:in darauf, dass im Abschnitt

Code: Alles auswählen

=25 Multi-Byte Zeichen =
die Zeichensatzeinstellungen definiert sind? Ich habe jetzt mit GVim einen Text mit deutschen Umlauten erstellt, dann mit Standardeinstellungen als Testdatei-Zeichensatz.txt gespeichert

Code: Alles auswählen

user@debian:$ file -i Testdatei-Zeichensatz.txt
Testdatei-Zeichensatz.txt: text/plain; charset=us-ascii
user@debian:$ 
Diese Testdatei-Zeichensatz.txt mit Mousepad geöffnet und ls Testdatei-Zeichensatz-Mousepad.txt gespeichert.

Code: Alles auswählen

user@debian:$ file -i Testdatei-Zeichensatz-Mousepad.txt
Testdatei-Zeichensatz-Mousepad.txt: text/plain; charset=utf-8
user@debian:$
In beiden Fällen verursachen die Umlauten keine kryptische Zeichen. Aber ich habe auch keine Ahnung, ob dies die Umlauten bzw. ein ß waren.

Danke für die Hilfe!
bin unterwegs mit
Debian, Version 11 (bullseye)

Benutzeravatar
Meillo
Moderator
Beiträge: 8813
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Zeichensatz

Beitrag von Meillo » 14.08.2022 11:19:45

Sieht doch alles gut aus. Du brauchst halt erstmal eine Datei, die Probleme verursacht, um bei ihr zu analysieren, worin das Problem besteht. Alles was du gezeigt hast, waren Dateien, die in Ordnung waren. (Und `:set fenc' hast du in einem Puffer ausgefuehrt, wo gar keine Datei geladen war, darum war der Wert leer. :-D )

Also, warte bis das Problem mal wieder auftaucht und dann analysiere es mit den nun gelernten Mitteln.
Use ed once in a while!

Antworten