Ich spike (auch) nur und Fefe sagt, meine Quelle ist auch noch Mist
Ne XPath tue ich auch selten, aber man findet doch prima Beispiele die das Prinzip erklären und i.d.R. sogar spezielle die für Einweg gut sind.
Daten von Seite mit wget extrahieren
-
- Beiträge: 3281
- Registriert: 29.06.2013 17:32:10
- Lizenz eigener Beiträge: GNU General Public License
-
Kontaktdaten:
Re: Daten von Seite mit wget extrahieren
Zuletzt geändert von Anonymous am 11.12.2018 12:57:57, insgesamt 1-mal geändert.
(=_=)
Unsere neue Mutter: https://www.nvidia.com/de-de/data-center/a100/
Unsere neue Mutter: https://www.nvidia.com/de-de/data-center/a100/
-
- Beiträge: 3281
- Registriert: 29.06.2013 17:32:10
- Lizenz eigener Beiträge: GNU General Public License
-
Kontaktdaten:
Re: Daten von Seite mit wget extrahieren
2ter Gedanke ist das HTML in Firefox öffnen und mit WebDeveloper eine XPath-Abfrage generieren lassen...
(=_=)
Unsere neue Mutter: https://www.nvidia.com/de-de/data-center/a100/
Unsere neue Mutter: https://www.nvidia.com/de-de/data-center/a100/
Re: Daten von Seite mit wget extrahieren
Hallo Ihr, danke!
Ich habe die Datein nun also schon heruntergeladen und versuche nur noch die drei Befehle
und
und
In einen Befehl zu bekommen. Dann werde ich mit suchen und ersetzen die überflüssigen br und h4 Tags raushauen.
Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.
Ich habe die Datein nun also schon heruntergeladen und versuche nur noch die drei Befehle
Code: Alles auswählen
grep '^<h4 class="font-weight-bold">.*</h4>$'
Code: Alles auswählen
grep '^ .*<br/>$'
und
Code: Alles auswählen
grep -E -o "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b"
Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |
Re: Daten von Seite mit wget extrahieren
Man kann auch lynx dazu mißbrauchen, die mit wget runtergeladenen HTML-Seiten in ASCII-Text zu wandeln, den man deutlich leichter parsen kann.
-
- Beiträge: 2049
- Registriert: 18.03.2012 21:13:42
- Lizenz eigener Beiträge: GNU Free Documentation License
Re: Daten von Seite mit wget extrahieren
Siehe [1].desputin hat geschrieben:11.12.2018 17:25:33In einen Befehl zu bekommen....
Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.
Das musst du auch nicht machen wenn du gleich mit look ahead und look behind arbeitest:desputin hat geschrieben:11.12.2018 17:25:33Dann werde ich mit suchen und ersetzen die überflüssigen br und h4 Tags raushauen.
Code: Alles auswählen
grep -Po '(?<=^<h4 class="font-weight-bold">).*(?=</h4>$)' bla.txt
Code: Alles auswählen
Späti Ecke 2
Supermarkt Lempke
Super Supermarkt
Hilf mit unser Wiki zu verbessern!