Mail-Adressen in Mbox-Datei unkenntlich machen?

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
Korodny
Beiträge: 705
Registriert: 09.09.2014 18:33:22
Lizenz eigener Beiträge: GNU Free Documentation License

Mail-Adressen in Mbox-Datei unkenntlich machen?

Beitrag von Korodny » 29.01.2017 17:15:28

Ich habe hier eine Mbox-Datei, die das Archiv einer kürzlich geschlossenen Mailingliste (Yahoogroups) mit rund 8400 Mails enthält. Würde das gerne im Netz veröffentlichen, zwecks Archivierung. Das Problem sind die ganzen Mail-Adressen und Yahoo-IDs im Klartext, die müssten vorher raus.

Yahoo-IDs sind kein Problem, einfach mit grep oder sed alle Zeilen rausfiltern, die "X-Yahoo-Profile" enthalten. Aber für E-Mails habe ich noch keine Lösung gefunden. Ich würde sie zwecks Wiedererkennung gerne nur teilweise entfernen bzw. unkenntlich machen, also beispielsweise immer den Teil vor dem @ durch "..." ersetzen oder so.

Ich finde nur Hinweise auf diverse Perl-Module zum Manipulieren von mbox-Dateien, aber mal eben selbst was schreiben traue ich mir nicht zu. Kennt jemand vielleicht eine fertige Lösung?

uname
Beiträge: 12072
Registriert: 03.06.2008 09:33:02

Re: Mail-Adressen in Mbox-Datei unkenntlich machen?

Beitrag von uname » 30.01.2017 09:30:49

Ich würde wohl sed verwenden:

Code: Alles auswählen

sed 's/ .*@/ ...@/g' mbox
Produziert nur eine Ausgabe.

Zum direkten Ändern Parameter -i verwenden:

Code: Alles auswählen

sed -i 's/ .*@/ ...@/g' mbox
Ändert aber auch @ irgendwo im Text. Es wird jeweils zwischen dem letzten Leerzeichen und dem @ durch ... ersetzt.

Benutzeravatar
Meillo
Moderator
Beiträge: 8813
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Mail-Adressen in Mbox-Datei unkenntlich machen?

Beitrag von Meillo » 30.01.2017 10:07:56

Wenn du Email-Adressen matchen willst, dann such dir eine passende Regexp, bevor du dir selber eine baust. Ich meinte, ich wusste auch eine Manpage in der eine drin stand, aber ich komme nicht mehr drauf.

Emailadressen in den Bodies zu ersetzen ist natuerlich sinnvoll, aber du musst dir bewusst sein, dass du damit die Mails evtl. kaputt machst, denn Content-Length Header stimmen nicht mehr (falls Software die beruecksichtigt) und digitale Signaturen stimmen nicht mehr.

Ich wuerde mich erst mal informieren, ob nicht jemand anderes das Problem schon geloest hat. Es gibt eine Reihe von Webmailarchiven (also eine mbox-nach-html-Konvertierung) die bieten das das Feature bestimmt schon. (Btw: Willst du eigentlich wirklich die mbox online stellen und nicht ein Webarchiv? Ersteres laesst sich halt schlecht online lesen, was doch vermutlich die ueblichste Nutzungsform sein wird.)
Use ed once in a while!

eggy
Beiträge: 3331
Registriert: 10.05.2008 11:23:50

Re: Mail-Adressen in Mbox-Datei unkenntlich machen?

Beitrag von eggy » 30.01.2017 13:44:29

Oft reicht es nicht den Teil vor dem @ rauszunehmen, insbesondere wenn Leute von der eigenen Domain schreiben. Dann gibts Infos in Signaturen, von IRC/Jabbernicks, über Telefonnummern, zu ganzen Adressen. Und dann Unterschreiben die Leute auch gerne mal mit vollem Namen in den Mails. Oder mit Abgekürztem Vornamen und vollem Nachnamen oder oder oder ... und dann bleibt neben Urheberrecht und co auch noch die Frage, ob die Schreiber von einem geschlossenen Leserkreis ausgegangen sind.

Korodny
Beiträge: 705
Registriert: 09.09.2014 18:33:22
Lizenz eigener Beiträge: GNU Free Documentation License

Re: Mail-Adressen in Mbox-Datei unkenntlich machen?

Beitrag von Korodny » 30.01.2017 19:55:42

Anonymisieren würde ich mir bei einem so großen Datensatz nicht zutrauen - ist aber auch kein Problem weil es sich um eine von Yahoogroups (bzw. ursprünglich egroups) gehostete Liste mit öffentlichem Archiv handelt. Die Mail-Adressen unkenntlich zu machen leistet dann das selbe wie das öffentliche Yahoo-Archiv (eigentlich sogar mehr, da ich auch die Yahoo-ID raus nehme). 80% der Mails sind sowieso (deutlich) älter als ein Jahrzehnt.

Web-Archiver kommen eher nicht in Frage, mangels öffentlichem Interesse. Es handelt sich um eine Liste mit Amiga-Bezug, die werde ich mit LhA (quasi ZIP für Amiga-User und Japaner ;)) packen und in einem entsprechenden Amiga-Archiv ablegen. Um Big Data etc. mache ich mir also sowieso keinen Kopf.

Vielen Dank an uname für den Hinweis mit sed, damit habe ich das jetzt gelöst. Mehrere Durchgänge (für "<...@" und "(...@" etc.) plus etwas Handarbeit und schon habe ich ein brauchbares Archiv. Mit "...@" kam Evolution nicht klar, also habe ich "MAIL_REMOVED@" benutzt.

Das mit "Content-Length" ist auch ein guter Hinweis, daran hatte ich gar nicht gedacht. Ich mache mich mal schlau ob der Header vorgeschrieben ist, ich denke die Zeilen kann ich auch einfach raus-"optimieren".

Vielen Dank für die Tipps.

Antworten