Daten von Seite mit wget extrahieren

Vom einfachen Programm zum fertigen Debian-Paket, Fragen rund um Programmiersprachen, Scripting und Lizenzierung.
Antworten
inne
Beiträge: 3281
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Daten von Seite mit wget extrahieren

Beitrag von inne » 11.12.2018 12:32:26

Ich spike (auch) nur und Fefe sagt, meine Quelle ist auch noch Mist :mrgreen:
Ne XPath tue ich auch selten, aber man findet doch prima Beispiele die das Prinzip erklären und i.d.R. sogar spezielle die für Einweg gut sind.
Zuletzt geändert von Anonymous am 11.12.2018 12:57:57, insgesamt 1-mal geändert.

inne
Beiträge: 3281
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Daten von Seite mit wget extrahieren

Beitrag von inne » 11.12.2018 12:35:50

2ter Gedanke ist das HTML in Firefox öffnen und mit WebDeveloper eine XPath-Abfrage generieren lassen...

Benutzeravatar
desputin
Beiträge: 1297
Registriert: 24.04.2015 17:16:34

Re: Daten von Seite mit wget extrahieren

Beitrag von desputin » 11.12.2018 17:25:33

Hallo Ihr, danke!

Ich habe die Datein nun also schon heruntergeladen und versuche nur noch die drei Befehle

Code: Alles auswählen

grep '^<h4 class="font-weight-bold">.*</h4>$'
und

Code: Alles auswählen

grep '^   .*<br/>$'

und

Code: Alles auswählen

grep -E -o "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b"
In einen Befehl zu bekommen. Dann werde ich mit suchen und ersetzen die überflüssigen br und h4 Tags raushauen.

Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.
https://www.daswirdmanjawohlnochsagenduerfen.de
https://www.neoliberalyse.de - Über die Ökonomisierung aller Lebensbereiche. |

Benutzeravatar
MSfree
Beiträge: 10754
Registriert: 25.09.2007 19:59:30

Re: Daten von Seite mit wget extrahieren

Beitrag von MSfree » 11.12.2018 17:56:49

Man kann auch Debianlynx dazu mißbrauchen, die mit wget runtergeladenen HTML-Seiten in ASCII-Text zu wandeln, den man deutlich leichter parsen kann.

cronoik
Beiträge: 2049
Registriert: 18.03.2012 21:13:42
Lizenz eigener Beiträge: GNU Free Documentation License

Re: Daten von Seite mit wget extrahieren

Beitrag von cronoik » 11.12.2018 20:54:26

desputin hat geschrieben: ↑ zum Beitrag ↑
11.12.2018 17:25:33
In einen Befehl zu bekommen....

Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.
Siehe [1].
desputin hat geschrieben: ↑ zum Beitrag ↑
11.12.2018 17:25:33
Dann werde ich mit suchen und ersetzen die überflüssigen br und h4 Tags raushauen.
Das musst du auch nicht machen wenn du gleich mit look ahead und look behind arbeitest:

Code: Alles auswählen

grep -Po '(?<=^<h4 class="font-weight-bold">).*(?=</h4>$)' bla.txt 

Code: Alles auswählen

Späti Ecke 2                                                                                                                         
Supermarkt Lempke                                                                                                                    
Super Supermarkt 
[1] viewtopic.php?f=34&t=171605#p1191868
Hilf mit unser Wiki zu verbessern!

Antworten