Daten von Seite mit wget extrahieren

inne · Beitrag von **inne** » 11.12.2018 12:32:26

Ich spike (auch) nur und Fefe sagt, meine Quelle ist auch noch Mist

Ne XPath tue ich auch selten, aber man findet doch prima Beispiele die das Prinzip erklären und i.d.R. sogar spezielle die für Einweg gut sind.

inne · Beitrag von **inne** » 11.12.2018 12:35:50

2ter Gedanke ist das HTML in Firefox öffnen und mit WebDeveloper eine XPath-Abfrage generieren lassen...

desputin · Beitrag von **desputin** » 11.12.2018 17:25:33

Hallo Ihr, danke!

Ich habe die Datein nun also schon heruntergeladen und versuche nur noch die drei Befehle

Code: Alles auswählen

grep '^<h4 class="font-weight-bold">.*</h4>$'

und

Code: Alles auswählen

grep '^   .*<br/>$'

und

Code: Alles auswählen

grep -E -o "\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b"

In einen Befehl zu bekommen. Dann werde ich mit suchen und ersetzen die überflüssigen br und h4 Tags raushauen.

Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.

MSfree · Beitrag von **MSfree** » 11.12.2018 17:56:49

Man kann auch

lynx dazu mißbrauchen, die mit wget runtergeladenen HTML-Seiten in ASCII-Text zu wandeln, den man deutlich leichter parsen kann.

cronoik · Beitrag von **cronoik** » 11.12.2018 20:54:26

desputin hat geschrieben:
11.12.2018 17:25:33
In einen Befehl zu bekommen....

Kann ich also die Befehle mit grep in einen kombinieren? Alternativ würde es auch gehen, wenn grep den ersten, zweiten und dritten Befehl jeweils in 1500 neue Dateien schreibt. Ich will halt verhindern, daß bei der ganzen Konvertiererei die Zeilen verrutschen und ich dann eine falsche Adresse neben einer E-Mail-Adresse und dem Titel stehen habe. Oder grep führt die Befehlte für jede Datei halt hintereinander aus, so daß ich mit Libreoffice jeweils jede dritte Zeile automatisiert in Spalten umsortieren kann.

Siehe [1].

desputin hat geschrieben:
11.12.2018 17:25:33
Dann werde ich mit suchen und ersetzen die überflüssigen br und h4 Tags raushauen.

Das musst du auch nicht machen wenn du gleich mit look ahead und look behind arbeitest:

Code: Alles auswählen

grep -Po '(?<=^<h4 class="font-weight-bold">).*(?=</h4>$)' bla.txt

Code: Alles auswählen

Späti Ecke 2                                                                                                                         
Supermarkt Lempke                                                                                                                    
Super Supermarkt

[1] viewtopic.php?f=34&t=171605#p1191868

debianforum.de

Daten von Seite mit wget extrahieren

Re: Daten von Seite mit wget extrahieren

Re: Daten von Seite mit wget extrahieren

Re: Daten von Seite mit wget extrahieren

Re: Daten von Seite mit wget extrahieren

Re: Daten von Seite mit wget extrahieren