KATE: UTF-8 Kodierung mit ungültigen Zeichen

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
kalamazoo
Beiträge: 288
Registriert: 28.08.2017 11:31:49

KATE: UTF-8 Kodierung mit ungültigen Zeichen

Beitrag von kalamazoo » 04.01.2023 00:12:06

Wenn ich dieselbe auf dem Server gespeicherte Text-Datei
1. von einem PC aufrufe, bekomme ich die Meldung "The file FILE.TXT was opened with UTF-8 encoding but contained invalid characters. It is set to read only mode, as saving might destroy its content.", wenn ich sie dagegen
2. von einem anderen PC öffne, erhalte ich keine Fehlermeldung.

Die Konfiguration von Kate ist auf beiden Systemen nahezu identisch, insbesondere die die Kodierung betreffenden Einstellungen sind gleich (Unicode UTF-8, universal detection, etc.). Unterschiede bestehen in der Linux-Version (Buster mit Kernel 4.19.0-23 =/= Bullseye mit 5.10.0-20) und der Version von Kate (18.08.0 =/= 20.12.2). Beide Systeme sind up-to-date (2022-12).

Kann es sein, dass Bullseye mit dem neueren Kate hier weniger Schwierigkeiten hat, als das ältere Buster?

Weiters:

Code: Alles auswählen

file /NETWORK/FILE.TXT 
gibt auf beiden PCs nicht das zu erwartende "UTF-8 Unicode text", sondern lediglich "data" aus, weshalb ich annehme, dass ich in diese Datei möglicherweise per Copy&Paste irgendwann ein Nicht-Unicode-Zeichen eingefügt habe. Wie kann ich dieses in Kate (oder auch mittels grep oder ähnlichem in der Konsole) finden?

chrbr
Beiträge: 550
Registriert: 29.10.2022 15:53:26

Re: KATE: UTF-8 Kodierung mit ungültigen Zeichen

Beitrag von chrbr » 04.01.2023 10:13:22

Ich würde am Buster Rechner die Datei kopieren und die Kopie mit Kate öffen und wieder abspeichern. Mit Debiandiff oder Debiancmp kann man dann sehen, worin der Unterschied besteht. Wenn es aber Binärdaten sind, dann sollte man vielleicht den Hexdump der beiden Dateien mit Debianxxd erzeugen und die Hexpdumps vergleichen. Damit solle man erst einmal herausbekommen, mit welchen Zeichen es Probleme gibt.

Benutzeravatar
MSfree
Beiträge: 10759
Registriert: 25.09.2007 19:59:30

Re: KATE: UTF-8 Kodierung mit ungültigen Zeichen

Beitrag von MSfree » 04.01.2023 10:37:37

chrbr hat geschrieben: ↑ zum Beitrag ↑
04.01.2023 10:13:22
... mit welchen Zeichen es Probleme gibt.
Eventuell liegt es an der "BOM", die der alte Kate noch nicht richtig interpretiert.

kalamazoo
Beiträge: 288
Registriert: 28.08.2017 11:31:49

Re: KATE: UTF-8 Kodierung mit ungültigen Zeichen

Beitrag von kalamazoo » 05.01.2023 04:33:22

chrbr hat geschrieben: ↑ zum Beitrag ↑
04.01.2023 10:13:22
Ich würde am Buster Rechner die Datei kopieren und die Kopie mit Kate öffen und wieder abspeichern.
kate sperrt -- wie einleitend gesagt -- beim Öffnen die Datei, man müsste also zuerst das Nicht-Unicode-Zeichen aus der Datei entfernen, um es dann speichern zu können
Wenn es aber Binärdaten sind, ...
es sollte eine reine Textdatei sein -- ist es aber offenbar nicht ganz
MSfree hat geschrieben: ↑ zum Beitrag ↑
04.01.2023 10:37:37
Eventuell liegt es an der "BOM", die der alte Kate noch nicht richtig interpretiert.
ersteres kann ich jetzt nicht bestätigen (also dass es ein BOM-Zeichen wäre), habe nach U+FEFF gesucht, aber nichts gefunden; vielleicht kennt aber jemand einen besseren als den von mir verwendeten Befehl:

Code: Alles auswählen

grep $'\uFEFF' file.txt
letzteres dürfte der Fall sein, das neuere kate schein um einiges toleranter zu sein

interessant ist jedoch, dass

Code: Alles auswählen

grep --color='auto' -P -n "[^\x00-\x7F]" file.txt
Umlaute und Sonderzeichen bei anderen Datein wie vorgesehen zeilenweise auflistet, bei der fraglichen Text-Datei aber
grep: double.txt: binary file matches ausgibt -- Binary File? Wahrscheinlich habe ich irgendeinen Textteil von einer Website mit einem Sonderzeichen kopiert und eingefügt, aber deswegen gleich Binärdatei?

Antworten