Hallo Tobo, ja, die Liste von Meinestadt.de wäre perfekt.
Ich würde die Liste dann einfach mal mit der Liste von Wikipedia (100 größte Städte in Deutschland) abgleichen und diese 100 entfernen - und dann müßte in etwa das dabei herauskommen, was ich benötige.
Und oder halt noch besser mit dieser Liste von destatis abgleichen, die auch die konkreten Bevölkerungszahlen enthält:
https://www.destatis.de/DE/ZahlenFakten ... chnis.html
In beiden Fällen wäre das für ein Script aber sicherlich schon ein Brocken mit 11.000 Städtenamen. Zumal meine zu durchsuchende Textdatei bald an die 1 GB herangeht...
Komplexere Suche in Textdateien...
Re: Komplexere Suche in Textdateien...
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Komplexere Suche in Textdateien...
Kommt drauf an, wieviele E-Mail-Adressen gefunden werden. Aber das dürfte kein Flaschenhals sein. Eine Suche etwa wie "grep -E "sortierte|10|Wörter" SortierteOrtsListe.txt" oder "comm -12 <(echo -e sortierte\n10\nWörter) SortierteOrtsListe.txt" bekommste mehr als hundertfach in der Sekunde hin. Comm bei mir etwa im Faktor 3 bis 4 schneller. Zeitlich anspruchsvoller ist bestimmt das Finden der E-Mail-Adressen!?desputin hat geschrieben:07.01.2019 13:29:09In beiden Fällen wäre das für ein Script aber sicherlich schon ein Brocken mit 11.000 Städtenamen. Zumal meine zu durchsuchende Textdatei bald an die 1 GB herangeht...
-
- Beiträge: 5528
- Registriert: 30.12.2004 15:31:07
- Wohnort: Wegberg
Re: Komplexere Suche in Textdateien...
Hallo
Wäre dann nicht bald der Einsatz eines Datenanalysetools wie zum Beispiel Python Panda anzuraten
mfg
schwedenmann
Wäre dann nicht bald der Einsatz eines Datenanalysetools wie zum Beispiel Python Panda anzuraten
mfg
schwedenmann
- heisenberg
- Beiträge: 3556
- Registriert: 04.06.2015 01:17:27
- Lizenz eigener Beiträge: MIT Lizenz
Re: Komplexere Suche in Textdateien...
Das Skript auf github kann jetzt zu der E-Mailadresse auch die näheste Kategorie finden.
Das Ganze jetzt noch für den Ort / die Stadt zu erweitern ist nur noch eine Kleinigkeit und Anwendung des existierenden Codes.
Der Aufruf ist(anders als es im Moment noch im Skript steht):
Also zweimal haupttext.txt.
Einladung an alle Interessierten, den Code zu verstehen und zu vervollständigen.
Zumindest ein kurzes awk-Tutorial zu lesen ist dabei bestimmt hilfreich.
https://codeberg.org/megabert/script-pa ... n/awk-near
Das Ganze jetzt noch für den Ort / die Stadt zu erweitern ist nur noch eine Kleinigkeit und Anwendung des existierenden Codes.
Der Aufruf ist(anders als es im Moment noch im Skript steht):
Code: Alles auswählen
Aufruf: ./prog.awk orte.txt haupttext.txt haupttext.txt
Einladung an alle Interessierten, den Code zu verstehen und zu vervollständigen.
Zumindest ein kurzes awk-Tutorial zu lesen ist dabei bestimmt hilfreich.
https://codeberg.org/megabert/script-pa ... n/awk-near
Zuletzt geändert von heisenberg am 01.05.2021 00:20:58, insgesamt 1-mal geändert.
Jede Rohheit hat ihren Ursprung in einer Schwäche.
Re: Komplexere Suche in Textdateien...
Hallo Heisenberg, super. Noch mal vielen Dank.
Ich werde jetzt noch mal meine Seite Crawlen mit Yacy (dauert noch ne Weile, weil super unfangreich) und dann werde ich das mal nächste Woche testen mit dem Script!
Ich werde jetzt noch mal meine Seite Crawlen mit Yacy (dauert noch ne Weile, weil super unfangreich) und dann werde ich das mal nächste Woche testen mit dem Script!
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |