Anführungs- und Schlusszeichen automatisch ersetzen

mullers · Beitrag von **mullers** » 02.03.2016 11:45:41

Meillo hat geschrieben:OT:
mullers hat geschrieben:beliebige Unicode Zeichen, meine Oma, deren Papagei, alles direkt eingegeben...
Den Papagei deiner Oma? Da lehnst du dich aber ganz schoen weit aus dem Fenster!

Weit ja, aber nicht zu weit.
Es stimmt natürlich, ich habe da nicht den Papagei, wie er später einmal ausgesehen hat, sondern nur kurz nach dem Schlüpfen (1F425). Na ja, so haben wir den Kleinen eben am Liebsten in Erinnerung.

paedubucher · Beitrag von **paedubucher** » 02.03.2016 14:17:39

Meillo hat geschrieben: Aber warum zwei Durchlaeufe, geht's nicht noch einfacher auch so:
Code: Alles auswählen
sed 's, ",«,g; s,",»,g'
... weil bei der zweiten Ersetzung sind in der Zeile ja alle " mit Leerzeichen davor schon ersetzt.

Stimmt, das macht ja das gleiche, nur schneller und mit weniger Tipparbeit.

Meillo hat geschrieben: Den Sonderfall /^"/ musst du vielleicht noch separat abfangen.

Ja, Whitespace und Zeilenanfang sollte es dann wirklich abdecken. Vielen Dank!

paedubucher · Beitrag von **paedubucher** » 08.03.2016 13:33:16

Ich habe übrigens noch eine Implementierung in JavaScript für das Problem gemacht, die den typografischen Anforderungen von Englisch, Deutsch und Französisch genügen sollte. Der Code ist doch ein ziemliches Gewurstel, und für nicht-lateinische Buchstaben dürfte es schlecht funktionieren. Vielleicht kann das mal jemand brauchen... Fehler kann ich aber nicht ausschliessen, gerade was das Französische betrifft. Immerhin, eine schöne Programmierübung war es allemal.

Beitrag von **Meillo** » 08.03.2016 14:21:36

paedubucher hat geschrieben:Ich habe übrigens noch eine Implementierung in JavaScript für das Problem gemacht, die den typografischen Anforderungen von Englisch, Deutsch und Französisch genügen sollte. Der Code ist doch ein ziemliches Gewurstel, und für nicht-lateinische Buchstaben dürfte es schlecht funktionieren. Vielleicht kann das mal jemand brauchen... Fehler kann ich aber nicht ausschliessen, gerade was das Französische betrifft. Immerhin, eine schöne Programmierübung war es allemal.

Nett ... nur, so wirklich zu funktionieren scheint es noch nicht.

Auf meine Eingabe:

foo ``bar'' baz

... erschien ploetzlich ein ``undefined'' im Text.

Als ich dann munter zwischen weiter Text eingeben (z.B. ``blah "blubb" blubber'') und dem Umschalten der Sprach gewechselt habe, hat er nicht das letzte Anfuehrungszeichenpaar ersetzt sondern das vorletzte.

Ich fuerchte, du muss noch ein bisschen dran werkeln.

Als Featurewunsch haette ich gerne noch die dt. Buchvariante, welche »die franzoesischen Zeichen« umgekehrt und ohne Leerraum verwendet.

paedubucher · Beitrag von **paedubucher** » 09.03.2016 10:47:01

Meillo hat geschrieben:
paedubucher hat geschrieben:Ich habe übrigens noch eine Implementierung in JavaScript für das Problem gemacht, die den typografischen Anforderungen von Englisch, Deutsch und Französisch genügen sollte. Der Code ist doch ein ziemliches Gewurstel, und für nicht-lateinische Buchstaben dürfte es schlecht funktionieren. Vielleicht kann das mal jemand brauchen... Fehler kann ich aber nicht ausschliessen, gerade was das Französische betrifft. Immerhin, eine schöne Programmierübung war es allemal.
Nett ... nur, so wirklich zu funktionieren scheint es noch nicht.

Ja, das mit dem "undefined" konnte ich auch reproduzieren... Ich habe anschliessend eine völlig neue Version geschrieben, wobei die Ersetzung nur bei der Eingabe von Space oder Return getriggert wird. Das macht die Sache ungemein einfacher.

Code: Alles auswählen

    var defaultQuotationRules = {
        double : {
            opening : "“",
            closing : "”"
        },
        single : {
            opening : "‘",
            closing : "’"
        }
    };

    var languageQuotationRules = {
        "en" : defaultQuotationRules,
        "de" : {
            double : {
                opening : "„",
                closing : "“"
            },
            single : {
                opening : "‚",
                closing : "‘"
            }
        },
        "es" : defaultQuotationRules,
        "ru" : defaultQuotationRules,
        "zh" : defaultQuotationRules,
        "pt" : defaultQuotationRules,
        "fr" : {
            double : {
                opening : "« ",
                closing : " »"
            },
            single : {
                opening : "‹ ",
                closing : " ›"
            }
        }
    };

    function doReplacements( text, language ) {

        var openingDouble = languageQuotationRules[ language ].double.opening;
        var closingDouble = languageQuotationRules[ language ].double.closing;

        // double quotes
        text = text.replace( /(\s+)"/g, "$1" + openingDouble );
        text = text.replace( /^"/g, openingDouble );
        text = text.replace( /"/g, closingDouble );

        var openingSingle = languageQuotationRules[ language ].single.opening;
        var closingSingle = languageQuotationRules[ language ].single.closing;

        // '80s -> ’80s
        text = text.replace( /'(\d{2}s)/g, "’$1" );

        // "rock 'n' roll" -> "rock ’n’ roll"
        text = text.replace( /(\w+\s+)'(\w{1})'/g, "$1’$2’" );

        // "don't" -> "don’t"
        text = text.replace( /(\w)'(\w)/g, "$1’$2" );

        // single quotes
        text = text.replace( /(\s+)'/g, "$1" + openingSingle );
        text = text.replace( /^'/g, openingSingle );
        text = text.replace( new RegExp( openingDouble + "'" ), openingDouble + openingSingle );
        text = text.replace( /'/g, closingSingle );

        // ... -> …
        text = text.replace( /\.\.\./g, "…" );

        // -- -> –
        text = text.replace( /--/g, "–" );

        return text;
    }

Ich stelle bei Gelegenheit noch eine kleine Demo online.

Meillo hat geschrieben: Als Featurewunsch haette ich gerne noch die dt. Buchvariante, welche »die franzoesischen Zeichen« umgekehrt und ohne Leerraum verwendet.

Das dürfte einfach zu bewerkstelligen sein, ich muss nur folgende Regel hinzufügen:

Code: Alles auswählen

"de_buch" : {
            double : {
                opening : "»",
                closing : "«"
            },
            single : {
                opening : "›",
                closing : "‹"
            }
        }

Das baue ich bei dieser Gelegenheit auch gleich ein.
Nachtrag: da ist es

Beitrag von **Meillo** » 09.03.2016 11:02:11

paedubucher hat geschrieben:Ich habe anschliessend eine völlig neue Version geschrieben, wobei die Ersetzung nur bei der Eingabe von Space oder Return getriggert wird.

Nachtrag: da ist es

Ja, jetzt sieht das schon viel besser aus. Konnte bislang keine Fehler finden.

Danke auch fuer die schnelle Umsetzung meines Featurewunsches.

paedubucher · Beitrag von **paedubucher** » 09.03.2016 11:39:39

Meillo hat geschrieben: Ja, jetzt sieht das schon viel besser aus. Konnte bislang keine Fehler finden.

Danke auch fuer die schnelle Umsetzung meines Featurewunsches.

Kein Problem, schliesslich hatte ich sogenannter Software Engineer das ganze ja so entwickelt, dass es einfach erweiterbar ist

Dass bei dir überhaupt JavaScript läuft, erstaunt mich jedoch

Andererseits überlege ich mir, auf meiner Webseite mal ein kleines Backend mit Perl zusammenzuhacken. Dann könnte das JavaScript wieder überflüssig werden. Mir reicht es, wenn die Typografie erst nach dem Submit etwas hergibt.

Beitrag von **Meillo** » 09.03.2016 12:07:43

paedubucher hat geschrieben: Dass bei dir überhaupt JavaScript läuft, erstaunt mich jedoch

Zurecht! (War nicht mein normaler Computer, auf dem ich das ausprobiert habe.)

Mir reicht es, wenn die Typografie erst nach dem Submit etwas hergibt.

Faende ich besser. Auch faende ich es sinnvoller, wenn nicht der Originaltext veraendert wird, sondern eine separate veraenderte Version erzeugt wird, dann kann man die naemlich mal im einen und mal im anderen Stil erzeugen lassen und den optischen Eindruck bewundern. (In diesem Zusammenhang haette ich dann noch einen Featurewunsch: den Unix-Stil mit `` und ''.

)

... du koenntest dann auch gleich automatisch alle Stile rausgenerieren lassen, untereinander. Waere vielleicht ganz nett.

Ich sehe schon, das wird noch ein richtig cooles Projekt!

ThorstenS · Beitrag von **ThorstenS** » 09.03.2016 13:37:03

cool!

Wobei ich mir schon lange angewöhnt habe anstelle von SHIFT+2 für " STRG+V für „ und STRG+B für “ zu tippen.

paedubucher · Beitrag von **paedubucher** » 09.03.2016 14:42:05

ThorstenS hat geschrieben:cool!
Wobei ich mir schon lange angewöhnt habe anstelle von SHIFT+2 für " STRG+V für „ und STRG+B für “ zu tippen.

Welcher Editor verwendet diese Tastenkombinationen? Oder ist es selbst so konfiguriert?

@meillo: Ich bin auch kein Freund von JavaScript. Das liegt aber nicht an der Technologie selber – obwohl es auch da ein paar wunde Punkte gibt – sondern vielmehr daran, wie es eingesetzt wird. Ein paar DOM-Manipulationen auf einer Webseite oder dem Eingabeformular etwas Logik einhauchen sind meines Erachtens legitime Verwendungszwecke. Aber leider wird JavaScript immer mehr für Tracking-Zwecke oder nervige CSS-Popups und andere Schweinereien verwendet.
Andererseits ist es eine gute Sprache um eben mal etwas mit einem primitiven GUI zu hacken. Texteditor und Browser sind immer da, und das "Deployment" geht ja auch wahnsinnig einfach.
Die ganze Logik kann man aber ebenso gut in sed hacken, wie wir gesehen haben.

Beitrag von **Meillo** » 09.03.2016 15:29:16

ThorstenS hat geschrieben: Wobei ich mir schon lange angewöhnt habe anstelle von SHIFT+2 für " STRG+V für „ und STRG+B für “ zu tippen.

Du scheinst kein tmux-Nutzer zu sein (oder verwendest den mit ^A, wie alle frueheren Screen-Nutzer) ... aber auf die Eingabe literaler Zeichen koennte ich nicht verzichten. Wenn ich im vi z.B. \r in Windowsdatei entfernen will: :%s,^M,, (das ^M gebe ich ein, indem ich ^V^M tippe) ... oder in einem vi mit ``set expandtab'' einen richtigen Tab eingeben: ^V^I (notwendig ist das z.B. in Makefiles oder bei portablem sed).

Trotzdem ist die Idee, irgendwelche freien Controllsequenzen fuer solche Zeichen herzunehmen, nett. Auch von mir die Frage, wo du das konfiguriert hast.

ThorstenS · Beitrag von **ThorstenS** » 10.03.2016 07:47:36

tut mir leid für die Verwirrung. Ich habe meinen Post nicht mehr kontrolliert.
Anstelle von STRG meinte ich AltGr+v und AltGr+b - das funktioniert out-of-the-box ohne etwas zu konfigurieren.
Bin ich mal durch Zufall drüber gestolpert als ich das µ (AltGr+m) gesucht habe. AltGr+n erzeugt übrigens das ”, wie ich gerade feststellen mußte

Für Fußnoten in Mails nutze ich übrigens auch
AltGr+1 = ¹
AltGr+2 = ²
AltGr+3 = ³

Im vim kann man durch die Eingabe von :digraph massig tolle utf8-Sonderzeichen finden. Vor dem gewünschten Zeichen sind zwei Buchstaben zu finden. Das Sonderzeichen erhält man durch Eingabe des ersten, Backspace und dann das zweite.
Die Eingabe von =<Backspace>- ergibt ein ¯, welches sich toll zum Unterstreichen einer vorherigen Zeile eignet…

Code: Alles auswählen

Unterstreich mich
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

Oder AltGr+. ergibt … (also echte drei Punkte als ein Zeichen) und AltGr+, ergibt einen „bulletpoint“ · Ich mag keine HTML-Mails und diese Dinge helfen mir beim Schreiben von ansehnlichen Mails :-þ ( ← ALTGr+p)

Ansonsten bin ich tatsächlich noch kein tmux Fan, weil ich auch screen äußerst selten einsetze und mir dessen Bedienung ohne Nachdenken flott von der Hand geht.

mullers · Beitrag von **mullers** » 10.03.2016 08:44:29

Meillo hat geschrieben: Trotzdem ist die Idee, irgendwelche freien Controllsequenzen fuer solche Zeichen herzunehmen, nett. Auch von mir die Frage, wo du das konfiguriert hast.

Also ich wollt' ja nix sagen, da es hier ja eher nicht um eher einfache Sachen geht, also nur der Sicherheit halber, weil es vielleicht gar nicht bekannt ist (s.o.): Die Chevrons (oder eben auch andersherum die Guillmets) kann man natürlich auch mit AltGr-y und AltGr-x schreiben.

paedubucher · Beitrag von **paedubucher** » 10.03.2016 09:02:17

Unicode-Eingabe funktioniert ja unter vim prima mit Ctrl-V, U, unter Gtk-Anwendungen mit Ctrl-Shift-U. Auf Windows geht es mit Alt (und dezimalen Codepoints), sofern man eine Tastatur mit numerischen Block hat. Das Problem ist halt, die ganzen Codepoints zu memorieren. Dafür habe ich mir eine handliche Liste gemacht.
Auf Dauer ist das mir aber zu mühsam geworden. Shift-2 für " ist einfach wesentlich schneller, und Typograpfe ist für mich erst ein Thema beim Publikationsprozess, noch nicht bei der Texteingabe. Von daher schalte ich da gerne ein Skript dazwischen. Je nach dem, wo oder wie der Text erscheinen soll, braucht man ja eh andere typografische Regeln, was wir ja bei Meillos Anforderung zur deutschen Buchtypografie gesehen haben. In der Schweiz verwendet man einschliessende Guillemets, im deutschen Buchdruck die umgekehrte Variante, und andernorts werden halt die Gänsefüsschen verwendet.

paedubucher · Beitrag von **paedubucher** » 30.03.2016 15:50:44

Ich habe das Ganze jetzt auch noch einmal in C implementiert. Schliesslich soll das doch auch performant sein, wenn ich mal einen grösseren Text bearbeiten will.

Beitrag von **Meillo** » 30.03.2016 16:05:30

paedubucher hat geschrieben:Ich habe das Ganze jetzt auch noch einmal in C implementiert.

Nutze lieber isspace(3) und memset(3) statt deren Funktionalitaet selbst zu implementieren.

Zum Verstaendnis (hab nur kurz quer gelesen): Ich hab eine Weile gebraucht, zu verstehen, was buf[BUF_SIZE] ist. Eine sprechenderer Name, wie z.B. context[CTX_SIZE] oder lookahead[NLOOKAHEAD] haette hier das Verstaendnis erleichtert.

Ansonsten sieht's gut aus! -- Eine tolle Uebung.

paedubucher · Beitrag von **paedubucher** » 30.03.2016 16:51:45

Meillo hat geschrieben:
paedubucher hat geschrieben:Ich habe das Ganze jetzt auch noch einmal in C implementiert.
Nutze lieber isspace(3) und memset(3) statt deren Funktionalitaet selbst zu implementieren.

Danke! Ich habe schon seit Ewigkeiten nichts mehr in C gemacht, darum ist mir isspace entfallen. Und memset verwende ich so richtig, also zum initialisieren?

Code: Alles auswählen

memset(buf, 0, sizeof(int) * BUF_SIZE);

Meillo hat geschrieben: Zum Verstaendnis (hab nur kurz quer gelesen): Ich hab eine Weile gebraucht, zu verstehen, was buf[BUF_SIZE] ist. Eine sprechenderer Name, wie z.B. context[CTX_SIZE] oder lookahead[NLOOKAHEAD] haette hier das Verstaendnis erleichtert.

Es ist viel eher ein "look behind" als ein "look ahead". Wie wäre es mit "input_buf" oder "input_queue"? Oder halt einfach "lookbehind"?

Meillo hat geschrieben: Ansonsten sieht's gut aus! -- Eine tolle Uebung.

Danke! Und C programmieren macht auch extrem viel Spass. Es ist zwar immer ein Krampf für mich mit meinen bescheidenen Kenntnissen, aber der Kopf ist dabei richtig schön gefordert und die Zeit vergeht wie im Fluge.

Beitrag von **Meillo** » 30.03.2016 18:31:08

paedubucher hat geschrieben: Und memset verwende ich so richtig, also zum initialisieren?
Code: Alles auswählen
memset(buf, 0, sizeof(int) * BUF_SIZE);

Korrekt ja, aber nicht unbedingt optimal. So funktioniert's auch wenn buf mal zum Array von char wird:

Code: Alles auswählen

memset(buf, 0, sizeof(buf));

(Ein Array weiss wieviel Speicher es belegt.)

Meillo hat geschrieben: Zum Verstaendnis (hab nur kurz quer gelesen): Ich hab eine Weile gebraucht, zu verstehen, was buf[BUF_SIZE] ist. Eine sprechenderer Name, wie z.B. context[CTX_SIZE] oder lookahead[NLOOKAHEAD] haette hier das Verstaendnis erleichtert.
Es ist viel eher ein "look behind" als ein "look ahead". Wie wäre es mit "input_buf" oder "input_queue"? Oder halt einfach "lookbehind"?

Hmm, ich stelle fest, ich habe noch nicht verstanden, was die Idee von buf[] und put_retaining() ist. Vielleicht waere es sinnvoll, den Ansatz grob in einem Kommentar darzulegen ... koennte beim Codeverstaendnis helfen. (Das was ich sehe entspricht keinem mir bekannten Ansatz (oder ich sehe es nur nicht). Ich wuerde nun anfangen, mit Papier und Bleistift durch den Code zu steppen, um herauszufinden was das Konzept hinter diesem Teil der Implementierung ist. Vielleicht koenntest du diesen Schritt durch einen passenden Kommentar teilweise ersparen.)

paedubucher · Beitrag von **paedubucher** » 30.03.2016 19:55:47

Meillo hat geschrieben:
paedubucher hat geschrieben: Und memset verwende ich so richtig, also zum initialisieren?
Code: Alles auswählen
memset(buf, 0, sizeof(int) * BUF_SIZE);
Korrekt ja, aber nicht unbedingt optimal. So funktioniert's auch wenn buf mal zum Array von char wird:
Code: Alles auswählen
memset(buf, 0, sizeof(buf));
(Ein Array weiss wieviel Speicher es belegt.)

Natürlich, vielen Dank!

Meillo hat geschrieben:

Meillo hat geschrieben: Zum Verstaendnis (hab nur kurz quer gelesen): Ich hab eine Weile gebraucht, zu verstehen, was buf[BUF_SIZE] ist. Eine sprechenderer Name, wie z.B. context[CTX_SIZE] oder lookahead[NLOOKAHEAD] haette hier das Verstaendnis erleichtert.
Es ist viel eher ein "look behind" als ein "look ahead". Wie wäre es mit "input_buf" oder "input_queue"? Oder halt einfach "lookbehind"?
Hmm, ich stelle fest, ich habe noch nicht verstanden, was die Idee von buf[] und put_retaining() ist. Vielleicht waere es sinnvoll, den Ansatz grob in einem Kommentar darzulegen ... koennte beim Codeverstaendnis helfen. (Das was ich sehe entspricht keinem mir bekannten Ansatz (oder ich sehe es nur nicht). Ich wuerde nun anfangen, mit Papier und Bleistift durch den Code zu steppen, um herauszufinden was das Konzept hinter diesem Teil der Implementierung ist. Vielleicht koenntest du diesen Schritt durch einen passenden Kommentar teilweise ersparen.)

Nun, wenn es zum Verständnis Kommentare braucht, ist schon einmal etwas schlecht am Code, finde ich. Den Puffer brauche ich nur für die Ersetzung der Auslassungspunkte (...) und Gedankenstriche (--). Wenn getchar() einen Punkt oder ein Minus einliest, darf ich das Zeichen nicht direkt ausgeben, da schliesslich noch einmal zwei Punkte bzw. ein Minus folgen könnte(n). Und darum behalte ich diese Zeichen im Puffer. Und sobald dort der dritte Punkt bzw. das zweite Minus hineingekommen ist, kann ich das Zeichen für die Auslassungspunkte bzw. den Gedankenstrich ausgeben und den Puffer verwerfen. Wenn aber jetzt beispielsweise nur ein Punkt reinkommt und dann ein Schlusszeichen, dann muss ich den Puffer so ausgeben, wie er ist. Ansonsten wäre das Programm auch nur halb so lang.

Beitrag von **Meillo** » 30.03.2016 22:31:05

paedubucher hat geschrieben:
Meillo hat geschrieben: Zum Verstaendnis (hab nur kurz quer gelesen): Ich hab eine Weile gebraucht, zu verstehen, was buf[BUF_SIZE] ist. Eine sprechenderer Name, wie z.B. context[CTX_SIZE] oder lookahead[NLOOKAHEAD] haette hier das Verstaendnis erleichtert.
Es ist viel eher ein "look behind" als ein "look ahead". Wie wäre es mit "input_buf" oder "input_queue"? Oder halt einfach "lookbehind"?

paedubucher hat geschrieben:
Meillo hat geschrieben: Hmm, ich stelle fest, ich habe noch nicht verstanden, was die Idee von buf[] und put_retaining() ist. Vielleicht waere es sinnvoll, den Ansatz grob in einem Kommentar darzulegen ... koennte beim Codeverstaendnis helfen. (Das was ich sehe entspricht keinem mir bekannten Ansatz (oder ich sehe es nur nicht). Ich wuerde nun anfangen, mit Papier und Bleistift durch den Code zu steppen, um herauszufinden was das Konzept hinter diesem Teil der Implementierung ist. Vielleicht koenntest du diesen Schritt durch einen passenden Kommentar teilweise ersparen.)
Nun, wenn es zum Verständnis Kommentare braucht, ist schon einmal etwas schlecht am Code, finde ich. Den Puffer brauche ich nur für die Ersetzung der Auslassungspunkte (...) und Gedankenstriche (--). Wenn getchar() einen Punkt oder ein Minus einliest, darf ich das Zeichen nicht direkt ausgeben, da schliesslich noch einmal zwei Punkte bzw. ein Minus folgen könnte(n). Und darum behalte ich diese Zeichen im Puffer. Und sobald dort der dritte Punkt bzw. das zweite Minus hineingekommen ist, kann ich das Zeichen für die Auslassungspunkte bzw. den Gedankenstrich ausgeben und den Puffer verwerfen. Wenn aber jetzt beispielsweise nur ein Punkt reinkommt und dann ein Schlusszeichen, dann muss ich den Puffer so ausgeben, wie er ist. Ansonsten wäre das Programm auch nur halb so lang.

Diese Erklaerung war aeusserst hilfreich. Solche konzeptionellen Kommentare finde ich bei Code sehr sinnvoll. Ich gehoere nicht zu denen, die meinen, dass Code keine Kommentare haben sollte. Und manche Arten vom Kommentaren kann man auch mit viel Anstrengung nicht unnoetig machen. Aber ich sehe es schon auch so, dass man versuchen sollte, den Code so aussagekraeftig oder so erwartungsgemaess zu gestalten, dass Kommentare weitgehend ueberfluessig werden.

Dein Ansatz hier ist, nachdem ich deine Beschreibung nun gelesen habe, nachvollziehbar und sinnhaft. Auf diesen Ansatz waere ich selber aber eher nicht gekommen. Darum hatte ich erstmal Verstaendnisprobleme. (Das was du hast ist uebrigens tatsaechlich ein Puffer im klassischen Sinn, insofern ist die Benennung treffend.) Wie du an meinen Anmerkungen sehen kannst, haette ich eher die Umsetzung eines Lookaheads erwartet, also das Vorauslesen der naechsten paar Zeichen um das aktuelle zu entscheiden, statt wie in deinem Fall, die Zeichen erstmal in den Puffer zu schieben und dort evtl. nochmal zu veraendern bevor sie ausgegeben werden. (Ein Lookback ist das uebrigens nicht, weil du nicht nur schaust sondern auch darin rumaenderst.) Ich nehme mir gerne die Freiheit, zu behaupten, dass der Lookahead-Ansatz klarer, simpler und verbreiteter ist.

... du wolltest ja sowieso das C-Programmieren ueben.

paedubucher · Beitrag von **paedubucher** » 31.03.2016 09:42:31

Meillo hat geschrieben: Diese Erklaerung war aeusserst hilfreich. Solche konzeptionellen Kommentare finde ich bei Code sehr sinnvoll. Ich gehoere nicht zu denen, die meinen, dass Code keine Kommentare haben sollte. Und manche Arten vom Kommentaren kann man auch mit viel Anstrengung nicht unnoetig machen. Aber ich sehe es schon auch so, dass man versuchen sollte, den Code so aussagekraeftig oder so erwartungsgemaess zu gestalten, dass Kommentare weitgehend ueberfluessig werden.

Genau das meinte ich. Leider ist es nicht immer möglich, solchen aussagekräftigen Code zu schreiben. Es ist halt ein Ideal. Die Kommentare, die ich eingefügt habe, die erklären, was denn der jeweilige Programmzweig macht, verabscheue ich eigentlich. Aber dennoch helfen sie dabei, die Übersicht zu behalten.

Meillo hat geschrieben: Wie du an meinen Anmerkungen sehen kannst, haette ich eher die Umsetzung eines Lookaheads erwartet, also das Vorauslesen der naechsten paar Zeichen um das aktuelle zu entscheiden, statt wie in deinem Fall, die Zeichen erstmal in den Puffer zu schieben und dort evtl. nochmal zu veraendern bevor sie ausgegeben werden.

Das ist natürlich auch eine Möglichkeit. Ich habe das nicht in Betracht gezogen, weil ich mir zu Beginn noch gar nicht über das geschilderte Problem im Klaren war. Und ein Vorauslesen bedarf natürlich weiterer "!= EOF"-Prüfungen, was aber zu einer wesentlich geringeren Komplexität führen würde, als ich sie jetzt habe.

Meillo hat geschrieben: (Ein Lookback ist das uebrigens nicht, weil du nicht nur schaust sondern auch darin rumaenderst.) Ich nehme mir gerne die Freiheit, zu behaupten, dass der Lookahead-Ansatz klarer, simpler und verbreiteter ist. ... du wolltest ja sowieso das C-Programmieren ueben.

Im Puffer selber ändere ich nichts. Ich gebe alles direkt aus. Den Lookahead-Ansatz werde ich aber bei Gelegenheit auch versuchen. Und dann lasse ich die beiden Programme einmal gegeneinander antreten. Ein Puffer für vier Zeichen ist für einen Java-Programmierer natürlich vernachlässigbar, das Durchschieben des Puffers bei jedem eingelesenen Zeichen ist jedoch in den meisten Fällen völlig unnötig.

Dann hätte ich noch eine ideologische Frage

Die meisten Tools lassen sich mit "tool dateiname" aufrufen. Dazu muss ich aber Parameterhandling und das Einlesen der Datei selber implementieren. Das sind vielleicht noch einmal 10 Zeilen, also nicht sonderlich tragisch, aber meiner Meinung nach ist das dennoch unnötige Komplexität, da ich das Programm ja auch als "tool <dateiname" aufrufen kann. Was würdest du in diesem Fall machen?
Andererseits will ich ja auch wieder etwas C lernen, von daher sollte ich jetzt nicht so faul sein

Beitrag von **Meillo** » 31.03.2016 11:06:00

paedubucher hat geschrieben:
Meillo hat geschrieben: Diese Erklaerung war aeusserst hilfreich. Solche konzeptionellen Kommentare finde ich bei Code sehr sinnvoll. Ich gehoere nicht zu denen, die meinen, dass Code keine Kommentare haben sollte. Und manche Arten vom Kommentaren kann man auch mit viel Anstrengung nicht unnoetig machen. Aber ich sehe es schon auch so, dass man versuchen sollte, den Code so aussagekraeftig oder so erwartungsgemaess zu gestalten, dass Kommentare weitgehend ueberfluessig werden.
Genau das meinte ich. Leider ist es nicht immer möglich, solchen aussagekräftigen Code zu schreiben. Es ist halt ein Ideal. Die Kommentare, die ich eingefügt habe, die erklären, was denn der jeweilige Programmzweig macht, verabscheue ich eigentlich. Aber dennoch helfen sie dabei, die Übersicht zu behalten.

Ich finde die momentan vorhandenen Kommentare keinesfalls verabscheuungswuerdig, sondern vielmehr sinnvoll eingesetzt. Jetzt noch zu Beginn ein mehrzeiliger Kommentarblock, der das verwendete Verfahren konzeptionell beschreibt, dann faende ich die Kommentierung passend.

Und ein Vorauslesen bedarf natürlich weiterer "!= EOF"-Prüfungen

Nicht unbedingt. Wenn du statt getchar(3) eine eigene getchar_buffererd() verwendest. Die gepufferte Variante schiebt das EOF nur durch. Dann waere als Lookahead vielleicht eine Funktion char *lookahead(int numchars) hilfreich, die du dann etwa so nutzen koenntest: if (strncmp("...", lookahead(3), 3)==0) {...}. Auf diese Weise waere die Pufferung dann in die beiden Funktionen getchar_buffered() und lookahead() gekapselt. (Du greifst momentan aus dem sonstigen Code direkt in den Puffer rein, hast also keine Kapselung des Puffers ... was bei deinem kleinen Programm aber auch kein zu grosses Problem ist.)

Meillo hat geschrieben: (Ein Lookback ist das uebrigens nicht, weil du nicht nur schaust sondern auch darin rumaenderst.) Ich nehme mir gerne die Freiheit, zu behaupten, dass der Lookahead-Ansatz klarer, simpler und verbreiteter ist. ... du wolltest ja sowieso das C-Programmieren ueben.
Im Puffer selber ändere ich nichts. Ich gebe alles direkt aus.

Ja, mein Fehler.

Wenn ich jetzt nochmal drueber nachdenke, dann wird das wohl in beiden Faellen ziemlich aehnlich sein, nur halt jeweils nur anders rum.

Den Lookahead-Ansatz werde ich aber bei Gelegenheit auch versuchen.

Ich beobachte und kommentiere deine Versuche gerne weiter.

(Ob ich selber noch dazu komme, eine Variante zu implementieren, kann ich noch nicht sagen.)

Dann hätte ich noch eine ideologische Frage
Die meisten Tools lassen sich mit "tool dateiname" aufrufen. Dazu muss ich aber Parameterhandling und das Einlesen der Datei selber implementieren. Das sind vielleicht noch einmal 10 Zeilen, also nicht sonderlich tragisch, aber meiner Meinung nach ist das dennoch unnötige Komplexität, da ich das Programm ja auch als "tool <dateiname" aufrufen kann. Was würdest du in diesem Fall machen?

Sehe ich auch so, dass es doof ist, dass man diese allzu uebliche Sache kompliziert und fehleranfaellig selbst implementieren muss. getopt(3) ist leider nicht so der riesen Hit. Das ist z.B. etwas, das ich an Perl liebe: while (<>) {...} -- es tut einfach das Richtige.

Da du fragst, was ich denke, wie es sein sollte: Unix Filter sollten von den als Argumente uebergebenen Dateien lesen oder von Stdin, falls keine uebergeben wurden. (Wenn `-' uebergeben wurde, sollte an dieser Stelle von Stdin gelesen werden.)

Es gibt nur wenige Filter, denen man keine Dateien als Argumente uebergeben kann, tr(1) ist das klassische Beispiel. Dort liegt es aber daran, dass man sonst nicht zwischen dem optinalen SET2 und einem optionalen Dateinamenargument unterscheiden koennte. Man haette also die Set-Angabe aendern muessen.

paedubucher · Beitrag von **paedubucher** » 31.03.2016 13:56:55

Ich habe jetzt eine Version komplett ohne Puffer geschrieben. Es geht zwar schon in die Richtung Spaghetticode, aber es hält sich noch im Rahmen. Jetzt brauche ich nur noch das Filehandling zu schreiben.
Das neue Programm scheint auch ca. 10% schneller zu laufen als das alte, wobei solche amateurhaften Messungen immer mit Vorsicht zu geniessen sind. Die Performancesteigerung ist aber durchaus nachvollziehbar.

paedubucher · Beitrag von **paedubucher** » 06.04.2016 09:34:25

paedubucher hat geschrieben:Ich habe jetzt eine Version komplett ohne Puffer geschrieben. Es geht zwar schon in die Richtung Spaghetticode, aber es hält sich noch im Rahmen. Jetzt brauche ich nur noch das Filehandling zu schreiben.
Das neue Programm scheint auch ca. 10% schneller zu laufen als das alte, wobei solche amateurhaften Messungen immer mit Vorsicht zu geniessen sind. Die Performancesteigerung ist aber durchaus nachvollziehbar.

Das Programm funktioniert leider nicht korrekt. Wenn nach einem Punkt ein Schlusszeichen kommt, darf das nicht einfach ausgegeben werden, es muss durch die gleiche Logik laufen. Darum habe ich den Ansatz wieder verworfen.

Darum jetzt zu meillos lookahead-Ansatz und etwas Programmier-Pädagogik

Ich habe einen kleinen Puffer, der immer einige Zeichen aufnehmen kann.

Code: Alles auswählen

#define LOOKAHEAD 10
int buf[LOOKAHEAD];
int buf_i;

buf_i ist immer der aktuelle Index, wo als nächstes geschrieben werden kann. Gelesen soll nur von der Stelle 0 werden. Nun habe ich drei Funktionen:

Code: Alles auswählen

int buf_getchar();
void buf_discard(int n);
char *buf_next(int n);

Die erste ist ein getchar, das mit einem Puffer arbeitet, dazu gleich. Die zweite schiebt den Puffer um n Stellen nach links, rechts wird mit 0 aufgefüllt.

Code: Alles auswählen

void buf_discard(int n)
{
    int i;

    while (n--) {
        for (i = 0; i < LOOKAHEAD - 1; i++) {
            buf[i] = buf[i + 1];
        }
        buf[i] = 0;
        buf_i--;
    }
}

Die dritte Funktion gibt die nächsten n Zeichen des Puffers zurück. Wenn zu wenig da ist, enthält der String eben den Wert 0 für die übrigen Stellen.

Code: Alles auswählen

char *buf_next(int n)
{
    int i;
    char *str = (char*)malloc(sizeof(char) * n);
    for (i = 0; i < n; i++) {
        str[i] = (i < buf_i) ? buf[i] : 0;
    }
    return str;
}

Nun kommt das Hauptproblem: buf_getchar():

Code: Alles auswählen

int buf_getchar()
{
    int c;

    if (buf_i > 0) {
        c = buf[0];
        buf_discard(1);
        return c;
    } else {
        do {
            c = getchar();
            buf[buf_i++] = c;
        } while (c != '\n' && c != EOF && buf_i < LOOKAHEAD);
    }
    c = buf[0];
    buf_discard(1);
    return c;
}

Wenn der Buffer nicht leer ist (buf_i > 0), wird das Zeichen links vom Puffer unter c abgespeichert, der Puffer einmal nach links durchgeschoben, und c zurückgegeben. Wenn hingegen noch nichts im Puffer ist, wird soviel eingelesen, wie möglich (bis zu EOF, \n oder halt, bis der Puffer voll ist). Nach dem erfolgten Einlesen wird nun wiederum das Zeichen ganz links zurückgegeben und der Puffer nach links durchgeschoben.
Nun stehe ich vor einem Henne-Ei-Problem: Wenn der Puffer etwas drin hat, aber noch nicht voll ist, sollte ich ja zunächst probieren, noch etwas hineinzulesen, bevor ich ihn aufbrauche. Der Puffer soll ja immer soviel laden, wie möglich. Ob etwas zu lesen ist weiss ich aber erst, wenn ich getchar() aufrufe. Und wenn ich das tue, aber nichts zu lesen ist, bleibt das ganze dort hängen.
Ich müsste ja irgendwie herausfinden können, ob da noch was zu lesen ist. Soll ich mir merken, warum das puffern abgebrochen wurde? Wenn es durch \n bzw. EOF war, dann ist halt nichts mehr zu lesen, wenn es aber durch Erreichen der Pufferlänge war, soll ich versuchen weiterzulesen? Das könnte ein Ansatz sein...
Oder sollte ich einfach einen input-Buffer bauen, der sich laufend vergrössert, sodass er immer die ganze Zeile halten kann?

paedubucher · Beitrag von **paedubucher** » 06.04.2016 09:44:06

paedubucher hat geschrieben:Soll ich mir merken, warum das puffern abgebrochen wurde? Wenn es durch \n bzw. EOF war, dann ist halt nichts mehr zu lesen, wenn es aber durch Erreichen der Pufferlänge war, soll ich versuchen weiterzulesen? Das könnte ein Ansatz sein...

Einmal das Problem ausformuliert, einmal kurz probiert, und schon habe ich eine Lösung:

Code: Alles auswählen

bool buf_finished;
/* ... */
int buf_getchar()
{
    int c;

    if (buf_finished && buf_i) {
        c = buf[0];
        buf_discard(1);
        return c;
    } else {
        do {
            c = getchar();
            buf[buf_i++] = c;
            buf_finished = (c == '\n' || c == EOF);
        } while (!buf_finished && buf_i < LOOKAHEAD);
    }
    c = buf[0];
    buf_discard(1);
    return c;
}

Wenn als letztes Zeichen \n oder EOF eingelesen wurde, muss nichts mehr gepuffert, sondern darf nur noch "konsumiert" werden. Wenn das Einlesen hingegen aufgrund eines vollen Puffers beendet wurde, muss da noch etwas zum Einlesen sein. Dann kann ich problemlos weiterlesen. Scheint zu klappen...
Hier noch der ganze Code.

Nachtrag: Jetzt habe ich das zum Vergleich noch mit sed implementiert:

Code: Alles auswählen

s/\.\.\./…/g
s/--/‒/g
s/ '/ ‹/g
s/^'/‹/g
s/'/›/g
s/"'/«‹/g
s/ "/ «/g
s/^"/«/g
s/"/»/g

Und einen kleinen Performance-Test dazu geschrieben, der jeweils 4 Millionen Zeilen verarbeitet:

Code: Alles auswählen

#!/bin/bash

echo "testing C implementation"
time ./smart_quotes <test-1m.txt >out.txt

echo -e "\ntesting sed implementation"
time sed -f smart_quotes.sed test-1m.txt >out.txt

Und hier ist das Ergebnis (mit musl-gcc, statisch):

Code: Alles auswählen

testing C implementation

real    0m10.929s
user    0m9.120s
sys     0m0.780s

testing sed implementation

real    0m15.695s
user    0m13.664s
sys     0m0.428s

Mit -O3 komme ich sogar auf 7.8 Sekunden runter. Ein Performance-Gewinn von 50-100%.

debianforum.de

Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen

Re: Anführungs- und Schlusszeichen automatisch ersetzen