[gelöst] Dieses Dokument ist kein gültiges UTF-8

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

[gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 16.04.2018 12:37:36

Hallo Debianer, :hail:

ich habe ein paar .txt Dateien auf dem Computer liegen, welche ich mit Debianmousepad unter Xfce öffne und bekomme dann in einem kleinen Fenster einen Hinweis angezeigt, das dieses Dokument kein gültiges UTF-8 ist. Ich habe bei Debianmousepad dann drei Auswahlmöglichkeiten: Standard (UTF-8), System (UTF-8), Andere (ISO-8859-14)

Bild

Um diese Dokumente öffnen zu können, muss ich auf Andere ISO-8859-14 klicken, dann kann ich es öffnen.
Meine Frage nun an euch, weiß jemand zufällig, ob es über das Terminal möglich ist, mit einem speziellen Befehl sämtliche .txt Dateien die im ISO-8859-14 vorliegen, in UTF-8 umzuwandeln, oder bleibt mir da nur dies alles per Hand zu erledigen, sprich die Datei zu öffnen, Inhalt rauskopieren und eine neue Datei zu erstellen?

Danke schon einmal im voraus.
Zuletzt geändert von Houbey am 11.03.2020 13:05:13, insgesamt 2-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22355
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 16.04.2018 12:54:03

Haste schon auf der Platte iconv Dann wäre noch Debianrecode und einiges mehr.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 16.04.2018 13:37:22

Ich habe eben mal in der Debiansynaptic Paketverwaltung geschaut und da gibt es bei Debian stretch kein Paket mit dem reinen Namen iconv. Ich habe zwei andere Pakete die bereits installiert sind. Das wäre einmal Debianlibc-bin und Debianlibtext-iconv-perl. Bei libc-bin kann ich aber in der Beschreibung folgendes finden:

Code: Alles auswählen

 * catchsegv: Speicherzugriffsfehler in Programmen abfangen
 * getconf: Systemkonfigurationsvariablen abfragen
 * getent: Einträge aus Verwaltungsdatenbanken auslesen
* iconv, iconvconfig: zwischen verschiedenen Zeichencodierungen umwandeln
 * ldd, ldconfig: Abhängigkeiten von gemeinsamen Bibliotheken
    anzeigen/konfigurieren
 * locale, localedef: Locale-Definitionen anzeigen/erzeugen
 * tzselect, zdump, zic: Zeitzonen auswählen/anzeigen/kompilieren
Wie es aussieht, ist das von dir erwähnte iconv an 4. Stellte in diesem libc-bin enthalten. Das Paket Debianrecode ist bei mir nicht installiert.
Zuletzt geändert von Houbey am 11.03.2020 13:07:02, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22355
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 16.04.2018 14:08:08

Ersteres stimmt , und letzteres muss installiert werden.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 16.04.2018 14:25:21

Super Sache, KBDCALLS, vielen Dank. :THX:

Ich schaue mir das mal genauer an und werde mal ein wenig herumspielen. Ich denke, ich melde mich wieder, wenn ich soweit ausgiebig getestet habe.
Zuletzt geändert von Houbey am 11.03.2020 13:07:14, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 16.04.2018 19:10:24

Ich habe mir soweit iconv angesehen und es erledigt soweit auch mein Vorgehen was ich gerne machen möchte. Nun ist mir eines aufgefallen, denn das Zeilenende steht nach dem konvertieren noch auf "DOS/Windows (CR+LF). Wenn iconv dieses auch noch beim konvertieren erledigen kann, das Zeilenende auf Unix (LF) umzustellen, wäre ich wunschlos zufrieden. In der manpage habe ich jetzt nichts dazu finden können.

Hat jemand noch eine Idee?
Zuletzt geändert von Houbey am 11.03.2020 13:07:23, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22355
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 16.04.2018 20:26:34

Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 17.04.2018 11:28:00

Das hat funktioniert. Dankeschön. :THX:

Ich habe mir den Befehl ein wenig verfeinert um gleich mehrere Dateien in Unterverzeichnissen zu konvertieren.

Code: Alles auswählen

find . -name '*.txt' -exec iconv -f ISO-8859-14 -t UTF-8 {} -o {} \;
Und um das Zeilenende zu ändern

Code: Alles auswählen

find . -type f -print0 | xargs -0 -n 1 -P 4 dos2unix
Nun habe ich allerdings festgestellt, das bei allen meinen .txt Dateien sämtliche Umlaute fehlen und nur noch Zeichen enthalten sind. Da ist mir wohl ein Fehler unterlaufen. Folgendes habe ich nun z.B. in den .txt Dateien stehen:

Code: Alles auswählen

demnÃĊchst >>> demnächst

gelöscht >>> gelöscht

natÃáṠġrlich >>> natürlich

fÃỳr >>> für

weiß >>> weiß

Königin >>> Königin
Das kann man nicht reinzufällig rückgängig machen oder sind die Dateien nun dauerhaft beschädigt? Dann muss ich sie löschen, wenn man gar nichts mehr retten kann.
Zuletzt geändert von Houbey am 11.03.2020 13:07:38, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22355
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 17.04.2018 12:21:39

Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 17.04.2018 12:31:15

Vielen Dank, das lese ich mir gleichnmal durch.

Um ehrlich zu sein, habe ich das gestern vorab getestet bei ein paar Kopien, da habe ich den zweiten Befehl allerdings noch nicht verfeinert. Das hatte soweit auch ohne Probleme geklappt, aber nach dem ich den Befehl weiter angepasst habe, ist mir da dieser Fehler passiert, den ich dummerweise nicht an einer Kopie getestet habe.

Ist jetzt zwar passiert, aber ich versuche das mal zu beheben.
Zuletzt geändert von Houbey am 11.03.2020 13:07:53, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 17.04.2018 14:17:11

Die Anleitungen die du mir verlinkt hast, scheinen nicht so ganz zu funktionieren. Das ist wohl auch ein recht komplexes Thema, sowas wiederherzustellen. Ich danke dir für deine versuchte Hilfe und deine Zeit. Ich werde die Dateien dann am besten löschen. Was nicht geht, geht halt nicht, damit kann ich dann auch leben. 8)
Zuletzt geändert von Houbey am 11.03.2020 13:08:04, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22355
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 17.04.2018 14:22:49

Sieh dir das doch mal mit nem Hexeditor an.

Mit Vi
in den Hexmodus
Verlassen
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 17.04.2018 14:47:20

Okay, das kann ich nochmal machen. Ich kenne vi nicht, aber ein bisschen lesen hat soweit wohl geklappt wie man den benutzt.

Ich habe eine Datei nun einmal im Hexamodus geöffnet, ist zwar alles Neuland für mich aber man lernt ja nie aus. Mir wurde nun zum Beispiel hier bei einer Zeile wo ein Umlaut wäre, sowas angezeigt:

Code: Alles auswählen

00000b50: 2020 2020 200a 2020 2020 2020 5765 6e6e       .      Wenn
00000b60: 2067 656c c383 c283 c382 c2b6 7363 6874   gel........scht
Das soll eigentlich "Wenn gelöscht" heißen.
Zuletzt geändert von Houbey am 11.03.2020 13:08:16, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 22355
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 17.04.2018 17:03:21

Man kann mit dem Vi suchen und ersetzen. Das gilt auch für nichtdruckbare Zeichen und auch zeichen die nicht über Tastatur ereichbar sind.

Als Beispiel
Ersetzt Text1 durch Text2 im gesamten Text. Da sehen die grafischen Textverarbeitungen alt gegen aus.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 17.04.2018 17:31:31

Alles klar, ich schaue mir das mal an, vielleicht kann ich damit ja ein wenig was retten. Dankeschön nochmal. Wenn mir das nicht weiterhilft, dann muss ich in den sauren Apfel beißen und meine .txt Dateien löschen. Hilft ja sonst nichts. 8)
Zuletzt geändert von Houbey am 11.03.2020 13:08:28, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von Revod » 17.04.2018 18:09:53

Wie ich von Deinen ausgehe benützt Du nur den " Mousepad " , als Texteditor. Wie wäre es mit einen mächtigen Editor, z. B. Debianbluefish und wenn er es nicht importieren kann dann " MadEdit Mod " und ist nicht in den Paketquellen,

https://sourceforge.net/projects/madedit-mod/

Es kann sehr vieles öffnen ( Beinahe alles öffnen wegen des Hex Code Unterstützung, jedoch ascii stellt es auch im Hex Modus als lesbares Text dar )..

In der Regel arbeite ich für ascii mit Debianmedit und alles was es nicht kann kommt zuerst Bluefish und als guter letzt MadEdit-Mod, und somit habe seid dem keine Text Dokumenten Probleme mehr mit Textzeichen Kodierung.

Man muss es vor dem speichern im Editor richtig einstellen ( UTF-8 ) und gut ist, ansonsten speichert es in der gleiche, original Kodierung ab.
Systemd und PulseAudio, hmmm, nein danke.

Benutzeravatar
Houbey
Beiträge: 727
Registriert: 03.03.2012 05:13:32

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von Houbey » 17.04.2018 20:44:03

Danke auch dir Revod, für deine Nachricht.

Ich kenne Debianbluefish in der Tat nicht, allerdings nutze ich seit Jahren schon Xfce, wo ich auch so gut es geht nur ressourcensparende Software nutze. Das könnte ein Grund sein, wieso ich Debianmousepad als grafischen Editor nutze und über die Konsole nutze ich sonst imnmer Debiannano. Ich werde mich auch bei deinen Vorschlag einmal durchlesen und schauen ob mir dieser sogar zusagt.

Zu allererst ist es mir ja wichtig, das ich diese ganzen Hieroglyphen in meinen .txt Dateien weg bekomme und ich dachte halt unter Linux gäbe es einen Befehl der diese Zeichen mit einem Schlag in seinen Ursprung zurückversetzen kann. Ich bin z.B. auch über diesen Beitrag gestoßen oder auch noch andere, die aber nicht direkt mein Problem schildern würde ich sagen. Interessant ist halt in dem Beitrag den ich verlinkt habe, das dort erwähnt wird, welche Umlaute hinter welchen Hieroglyphen welches stecken soll. Ist aber gar nicht so leicht sämtliche .txt durchzuschauen und per Hand zu filtern.
Zuletzt geändert von Houbey am 11.03.2020 13:08:39, insgesamt 1-mal geändert.
Viele Grüße
Houbey

------------------------------
Debian GNU/Linux 11.8 Bullseye, Xfce 4.16, als 64-Bit und bis jetzt noch glücklich damit. 8)

Benutzeravatar
Revod
Beiträge: 3788
Registriert: 20.06.2011 15:04:29
Lizenz eigener Beiträge: MIT Lizenz

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von Revod » 17.04.2018 21:19:01

Jepp, das habe ich schon verstanden, bezüglich der " Hieroglyphen " bei Sonderzeichen. Genau deswegen gilt es einen mächtiges Editor der alle Zeichenkodierungen kennt, um die xy.txt überhaupt erst Mal öffnen zu können.

Einen noch sehr gutes Editor und Ressourcenschonend wäre,

https://notepadqq.com/s/

Für den Anfang ist dieser noch viel intuitiver als MadEdit-Mod, weil man im Hauptmenü, unter " Zeichenkodierung " , im Menükontext " Interpretiere als... " nachdem die xy.txt Datei geöffnet wurde. Es hat eine sehr lange Liste von Zeichenkodierung Abkürzungen. Wenn Die richtige Kodierung gewählt wird werden dann die Sonderzeichen auch leserlich. Und es beherrscht auch unzählige Code Sprachen, kann ich auch wärmstens empfehlen, den Notepadqq Mal als erstes zu probieren um einer Deiner xy.txt Datei zu öffnen.

Etwas OT, Text Programme können sich auch zu Ressourcen Fresser wandeln, wenn eine Datei Meterlange Zeilen beinhaltet. Mein altes Notebook mit 512 MB RAM und 1 GHz Singel-CPU hat sich vor ca. einen Monat verabschiedet, doch seid gut 9 Jahre benutzte ich darauf Medit, Bluefish, MadEdit-Mod und Notepadqq ohne nennenswerte Ressourcen Schwierigkeiten. :wink:
Systemd und PulseAudio, hmmm, nein danke.

Antworten