[gelöst] Dieses Dokument ist kein gültiges UTF-8

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

[gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 16.04.2018 12:37:36

Hallo Debianer, :hail:

ich habe ein paar .txt Dateien auf dem Computer liegen, welche ich mit Debianmousepad unter Xfce öffne und bekomme dann in einem kleinen Fenster einen Hinweis angezeigt, das dieses Dokument kein gültiges UTF-8 ist. Ich habe bei Debianmousepad dann drei Auswahlmöglichkeiten: Standard (UTF-8), System (UTF-8), Andere (ISO-8859-14)

Bild

Um diese Dokumente öffnen zu können, muss ich auf Andere ISO-8859-14 klicken, dann kann ich es öffnen.
Meine Frage nun an euch, weiß jemand zufällig, ob es über das Terminal möglich ist, mit einem speziellen Befehl sämtliche .txt Dateien die im ISO-8859-14 vorliegen, in UTF-8 umzuwandeln, oder bleibt mir da nur dies alles per Hand zu erledigen, sprich die Datei zu öffnen, Inhalt rauskopieren und eine neue Datei zu erstellen?

Danke schon einmal im voraus.

Grüße,
carlchen
Zuletzt geändert von carlchen am 17.04.2018 14:17:42, insgesamt 1-mal geändert.
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 21706
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 16.04.2018 12:54:03

Haste schon auf der Platte iconv Dann wäre noch Debianrecode und einiges mehr.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 16.04.2018 13:37:22

Ich habe eben mal in der Debiansynaptic Paketverwaltung geschaut und da gibt es bei Debian stretch kein Paket mit dem reinen Namen iconv. Ich habe zwei andere Pakete die bereits installiert sind. Das wäre einmal Debianlibc-bin und Debianlibtext-iconv-perl. Bei libc-bin kann ich aber in der Beschreibung folgendes finden:

Code: Alles auswählen

 * catchsegv: Speicherzugriffsfehler in Programmen abfangen
 * getconf: Systemkonfigurationsvariablen abfragen
 * getent: Einträge aus Verwaltungsdatenbanken auslesen
* iconv, iconvconfig: zwischen verschiedenen Zeichencodierungen umwandeln
 * ldd, ldconfig: Abhängigkeiten von gemeinsamen Bibliotheken
    anzeigen/konfigurieren
 * locale, localedef: Locale-Definitionen anzeigen/erzeugen
 * tzselect, zdump, zic: Zeitzonen auswählen/anzeigen/kompilieren
Wie es aussieht, ist das von dir erwähnte iconv an 4. Stellte in diesem libc-bin enthalten. Das Paket Debianrecode ist bei mir nicht installiert.

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 21706
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 16.04.2018 14:08:08

Ersteres stimmt , und letzteres muss installiert werden.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 16.04.2018 14:25:21

Super Sache, KBDCALLS, vielen Dank. :THX:

Ich schaue mir das mal genauer an und werde mal ein wenig herumspielen. Ich denke, ich melde mich wieder, wenn ich soweit ausgiebig getestet habe.

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 16.04.2018 19:10:24

Ich habe mir soweit iconv angesehen und es erledigt soweit auch mein Vorgehen was ich gerne machen möchte. Nun ist mir eines aufgefallen, denn das Zeilenende steht nach dem konvertieren noch auf "DOS/Windows (CR+LF). Wenn iconv dieses auch noch beim konvertieren erledigen kann, das Zeilenende auf Unix (LF) umzustellen, wäre ich wunschlos zufrieden. In der manpage habe ich jetzt nichts dazu finden können.

Hat jemand noch eine Idee?

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 21706
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 16.04.2018 20:26:34

Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 17.04.2018 11:28:00

Das hat funktioniert. Dankeschön. :THX:

Ich habe mir den Befehl ein wenig verfeinert um gleich mehrere Dateien in Unterverzeichnissen zu konvertieren.

Code: Alles auswählen

find . -name '*.txt' -exec iconv -f ISO-8859-14 -t UTF-8 {} -o {} \;
Und um das Zeilenende zu ändern

Code: Alles auswählen

find . -type f -print0 | xargs -0 -n 1 -P 4 dos2unix
Nun habe ich allerdings festgestellt, das bei allen meinen .txt Dateien sämtliche Umlaute fehlen und nur noch Zeichen enthalten sind. Da ist mir wohl ein Fehler unterlaufen. Folgendes habe ich nun z.B. in den .txt Dateien stehen:

Code: Alles auswählen

demnÃĊchst >>> demnächst

gelöscht >>> gelöscht

natÃáṠġrlich >>> natürlich

fÃỳr >>> für

weiß >>> weiß

Königin >>> Königin
Das kann man nicht reinzufällig rückgängig machen oder sind die Dateien nun dauerhaft beschädigt? Dann muss ich sie löschen, wenn man gar nichts mehr retten kann.

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 21706
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 17.04.2018 12:21:39

Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 17.04.2018 12:31:15

Vielen Dank, das lese ich mir gleichnmal durch.

Um ehrlich zu sein, habe ich das gestern vorab getestet bei ein paar Kopien, da habe ich den zweiten Befehl allerdings noch nicht verfeinert. Das hatte soweit auch ohne Probleme geklappt, aber nach dem ich den Befehl weiter angepasst habe, ist mir da dieser Fehler passiert, den ich dummerweise nicht an einer Kopie getestet habe.

Ist jetzt zwar passiert, aber ich versuche das mal zu beheben.

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 17.04.2018 14:17:11

Die Anleitungen die du mir verlinkt hast, scheinen nicht so ganz zu funktionieren. Das ist wohl auch ein recht komplexes Thema, sowas wiederherzustellen. Ich danke dir für deine versuchte Hilfe und deine Zeit. Ich werde die Dateien dann am besten löschen. Was nicht geht, geht halt nicht, damit kann ich dann auch leben. 8)

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 21706
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 17.04.2018 14:22:49

Sieh dir das doch mal mit nem Hexeditor an.

Mit Vi
in den Hexmodus
Verlassen
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 17.04.2018 14:47:20

Okay, das kann ich nochmal machen. Ich kenne vi nicht, aber ein bisschen lesen hat soweit wohl geklappt wie man den benutzt.

Ich habe eine Datei nun einmal im Hexamodus geöffnet, ist zwar alles Neuland für mich aber man lernt ja nie aus. Mir wurde nun zum Beispiel hier bei einer Zeile wo ein Umlaut wäre, sowas angezeigt:

Code: Alles auswählen

00000b50: 2020 2020 200a 2020 2020 2020 5765 6e6e       .      Wenn
00000b60: 2067 656c c383 c283 c382 c2b6 7363 6874   gel........scht
Das soll eigentlich "Wenn gelöscht" heißen.

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Benutzeravatar
KBDCALLS
Moderator
Beiträge: 21706
Registriert: 24.12.2003 21:26:55
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Dortmund
Kontaktdaten:

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von KBDCALLS » 17.04.2018 17:03:21

Man kann mit dem Vi suchen und ersetzen. Das gilt auch für nichtdruckbare Zeichen und auch zeichen die nicht über Tastatur ereichbar sind.

Als Beispiel
Ersetzt Text1 durch Text2 im gesamten Text. Da sehen die grafischen Textverarbeitungen alt gegen aus.
Was haben Windows und ein Uboot gemeinsam?
Kaum macht man ein Fenster auf, gehen die Probleme los.

EDV ist die Abkürzung für: Ende der Vernunft

Bevor du einen Beitrag postest:
  • Kennst du unsere Verhaltensregeln
  • Lange Codezeilen/Logs gehören nach NoPaste, in Deinen Beitrag dann der passende Link dazu.

Benutzeravatar
carlchen
Beiträge: 548
Registriert: 03.03.2012 05:13:32

Re: [gelöst] Dieses Dokument ist kein gültiges UTF-8

Beitrag von carlchen » 17.04.2018 17:31:31

Alles klar, ich schaue mir das mal an, vielleicht kann ich damit ja ein wenig was retten. Dankeschön nochmal. Wenn mir das nicht weiterhilft, dann muss ich in den sauren Apfel beißen und meine .txt Dateien löschen. Hilft ja sonst nichts. 8)

Grüße,
carlchen
Debian GNU/Linux 9.6 Stretch, Xfce 4.12, als 64-Bit 8)

Antworten