Komplexere Suche in Textdateien...

Vom einfachen Programm zum fertigen Debian-Paket, Fragen rund um Programmiersprachen, Scripting und Lizenzierung.
Antworten
Benutzeravatar
desputin
Beiträge: 1297
Registriert: 24.04.2015 17:16:34

Re: Komplexere Suche in Textdateien...

Beitrag von desputin » 07.01.2019 13:29:09

Hallo Tobo, ja, die Liste von Meinestadt.de wäre perfekt.
Ich würde die Liste dann einfach mal mit der Liste von Wikipedia (100 größte Städte in Deutschland) abgleichen und diese 100 entfernen - und dann müßte in etwa das dabei herauskommen, was ich benötige.

Und oder halt noch besser mit dieser Liste von destatis abgleichen, die auch die konkreten Bevölkerungszahlen enthält:
https://www.destatis.de/DE/ZahlenFakten ... chnis.html

In beiden Fällen wäre das für ein Script aber sicherlich schon ein Brocken mit 11.000 Städtenamen. Zumal meine zu durchsuchende Textdatei bald an die 1 GB herangeht...
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |

tobo
Beiträge: 1990
Registriert: 10.12.2008 10:51:41

Re: Komplexere Suche in Textdateien...

Beitrag von tobo » 07.01.2019 14:59:24

desputin hat geschrieben: ↑ zum Beitrag ↑
07.01.2019 13:29:09
In beiden Fällen wäre das für ein Script aber sicherlich schon ein Brocken mit 11.000 Städtenamen. Zumal meine zu durchsuchende Textdatei bald an die 1 GB herangeht...
Kommt drauf an, wieviele E-Mail-Adressen gefunden werden. Aber das dürfte kein Flaschenhals sein. Eine Suche etwa wie "grep -E "sortierte|10|Wörter" SortierteOrtsListe.txt" oder "comm -12 <(echo -e sortierte\n10\nWörter) SortierteOrtsListe.txt" bekommste mehr als hundertfach in der Sekunde hin. Comm bei mir etwa im Faktor 3 bis 4 schneller. Zeitlich anspruchsvoller ist bestimmt das Finden der E-Mail-Adressen!?

schwedenmann
Beiträge: 5528
Registriert: 30.12.2004 15:31:07
Wohnort: Wegberg

Re: Komplexere Suche in Textdateien...

Beitrag von schwedenmann » 07.01.2019 17:43:58

Hallo


Wäre dann nicht bald der Einsatz eines Datenanalysetools wie zum Beispiel Python Panda anzuraten :mrgreen:

mfg
schwedenmann

Benutzeravatar
heisenberg
Beiträge: 3540
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: Komplexere Suche in Textdateien...

Beitrag von heisenberg » 08.01.2019 02:42:20

Das Skript auf github kann jetzt zu der E-Mailadresse auch die näheste Kategorie finden.

Das Ganze jetzt noch für den Ort / die Stadt zu erweitern ist nur noch eine Kleinigkeit und Anwendung des existierenden Codes.

Der Aufruf ist(anders als es im Moment noch im Skript steht):

Code: Alles auswählen

Aufruf: ./prog.awk orte.txt haupttext.txt haupttext.txt
Also zweimal haupttext.txt.

Einladung an alle Interessierten, den Code zu verstehen und zu vervollständigen.

Zumindest ein kurzes awk-Tutorial zu lesen ist dabei bestimmt hilfreich.

https://codeberg.org/megabert/script-pa ... n/awk-near
Zuletzt geändert von heisenberg am 01.05.2021 00:20:58, insgesamt 1-mal geändert.
Jede Rohheit hat ihren Ursprung in einer Schwäche.

Benutzeravatar
desputin
Beiträge: 1297
Registriert: 24.04.2015 17:16:34

Re: Komplexere Suche in Textdateien...

Beitrag von desputin » 09.01.2019 22:35:58

Hallo Heisenberg, super. Noch mal vielen Dank.
Ich werde jetzt noch mal meine Seite Crawlen mit Yacy (dauert noch ne Weile, weil super unfangreich) und dann werde ich das mal nächste Woche testen mit dem Script!
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |

Antworten