Meillo hat geschrieben: 04.02.2019 06:06:11
Was die Software am ehesten in diese Richtung bieten koennte, waeren Aequivalenzklassen in denen alle Gedankenstriche, die der jeweilige Sprachraum (!) fuer solche haelt, zusammengefasst werden, aber ob das in den Locales umgesetzt ist, weiss ich nicht (ich vermute eher, dass nicht).
Teilweise/Vielleicht kann man hier auf die Hilfe von uconv und co zurückgreifen, ich find die jedoch nicht wirklich intuitiv.
Daher lieber selbst die paar in Frage kommenden Zeichen rausfischen:
Code: Alles auswählen
sed 's_\(.\)_\1\n_g' datei.txt | grep -v "[a-z0-9A-Z,]" | sort -u
Das zerlegt die Datei erstmal Buchstabenweise, sammelt dann alle Zeilen raus die Buchstaben, Zahlen oder Komma enthalten, sortiert dann die übriggebliebenen Ergebnisse und gibt wegen -u davon jeweils nur eins aus (und ja, wahrscheinlich geht das schöner, z.B. indem man hier fürs Ersetzen nur sed nimmt - nur bekomm ich damit 'uniq' nicht so einfach hin ... na, Meillo?)
Alles was da übrigbleibt kann man dann in Ruhe in der Tabelle nachschlagen.
Oder es den Rechner machen lassen, ich bin dazu grad über
uni2ascii gestolpert, das hat nen paar interessante Optionen in der manpage, für den Fall hier scheint U passend:
will man den uni2ascii Befehl direkt per Pipe an sed/sort anhängen, muss man wahrscheinlich auch noch bzgl. Encoding von Anführungszeichen und co aufpassen, daher hier alleinstehend, ging ja nur um nen paar Zeichen