Webseite per command line oder shell script abfragen

Du suchst ein Programm für einen bestimmten Zweck?
Antworten
ren22
Beiträge: 396
Registriert: 26.11.2006 09:05:14

Webseite per command line oder shell script abfragen

Beitrag von ren22 » 10.01.2018 21:23:03

Hallo,

ich würde gerne von dieser, (soll keine Werbung sein), Seite "http://de.tsomaps.com/price/" Werte abfragen von der CommandLine oder auch per Shellscript...
zum Bsp. was ist "Nadelholz" in "Goldmünzen" wert im Grünland. Ich habe leider 0 Erfahrung mit so etwas deswegen muss ich mal so doof fragen. Danke

Benutzeravatar
Datenteiler
Beiträge: 84
Registriert: 12.10.2008 21:01:46
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Hannover
Kontaktdaten:

Re: Webseite per command line oder shell script abfragen

Beitrag von Datenteiler » 10.01.2018 23:10:01

Hi,

für Web Scraping würde ich Python nehmen. Eine nette Einführung gibt es bei Automate the Boring Stuff. Besonders das Python Module BeautifulSoup ist da ganz hilfreich.

Viele Grüße
Christian

Benutzeravatar
Meillo
Moderator
Beiträge: 4834
Registriert: 21.06.2005 14:55:06
Wohnort: Balmora
Kontaktdaten:

Re: Webseite per command line oder shell script abfragen

Beitrag von Meillo » 10.01.2018 23:21:23

Meistens verwende ich `w3m -dump' oder `wget -O-' und grep(1)e oder sed(1)e oder awk(1)e dann rum bis ich die passenden Werte habe. Ist nicht unbedingt der schoenste Weg, aber in meinen Faellen kam ich mit Einzeilern hin.

Du solltest aber darauf achten, dass du Fehlermeldungen generierst, wenn nichts gefunden wird, damit du merkst wenn die Website sich geaendert hat und du dein Script anpassen musst.


EDIT: Wenn ich die Seite aufrufe, dann sehe ich gar keine Rohstoffe. Javascript? Dann wird's natuerlich schwieriger. ... Ich bin dann mal raus. ;-)
Use ed(1) once in a while!

Benutzeravatar
novalix
Beiträge: 1493
Registriert: 05.10.2005 12:32:57
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: elberfeld

Re: Webseite per command line oder shell script abfragen

Beitrag von novalix » 11.01.2018 11:29:21

Meillo hat geschrieben: ↑ zum Beitrag ↑
10.01.2018 23:21:23
EDIT: Wenn ich die Seite aufrufe, dann sehe ich gar keine Rohstoffe. Javascript? Dann wird's natuerlich schwieriger. ... Ich bin dann mal raus. ;-)
Ja, auf der Seite geht es alles andere als RESTy zu. Ist alles eine Ressource.
Man müsste also einen Bot bauen, der in der Lage ist, bestimmte Click-Aktionen automatisch durchzuführen.
Bezogen auf @datenteilers Link bedeutet das, dass man sich wohl auch mit "Selenium" herumschlagenbeschäftigen muss.
Für das Perl-Modul www::mechanize gab es mal so eine Art Shell, mit der man die einzelnen Schritte händisch durchspielen und das Ergebnis aufzeichnen konnte. Das funktioniert aber wohl nicht mit JS.
I have seen the face of death. It is a 1000+ line XML file of regexes.
j_houg

Benutzeravatar
inne
Beiträge: 1892
Registriert: 25.06.2013 15:45:12
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Webseite per command line oder shell script abfragen

Beitrag von inne » 11.01.2018 11:46:24

Selenium? Ich würde ein Selenium schreiben und dann was mit DOM und XPATH. Geht auch headless. Kann dann auch alles was der Browser z.B. Firefox kann.
Selenium gibt es für Perl, Python usw.

Der Test könnte dann lauten: Ist der Preis XY akzeptabel o.ä.^^

https://de.wikipedia.org/wiki/Selenium
https://de.wikipedia.org/wiki/Document_Object_Model
https://de.wikipedia.org/wiki/XPath, https://www.w3schools.com/xml/xpath_intro.asp
(=_=)

You guys do what you do best... find something simple and complicate it!

ren22
Beiträge: 396
Registriert: 26.11.2006 09:05:14

Re: Webseite per command line oder shell script abfragen

Beitrag von ren22 » 12.01.2018 15:39:27

Danke euch allen für eure tollen Antworten, wie schnell man wieder neue Dinge lernt "Web Scraping" kannte ich bis dato garnicht, ich habe mich noch ein wenig beschäftig und bin auch auf "http://edbrowse.org/" gestossen, der browser von ed, per scripting steuerbar und soll auch java script unterstützen, wenn ich soweit richtig informiert bin muss mich bloss einarbeiten wie das ganze mit edbrowse genau funktioniert per script'ing, alternativ habe ich noch phantomJS enteckt aber leider fehlt mir ein Bezug auf Java / Java Script jegliche Programmier Erfahrung ... na mal sehen.

Vielen Dank soweit an alle. :hail:

Benutzeravatar
inne
Beiträge: 1892
Registriert: 25.06.2013 15:45:12
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Webseite per command line oder shell script abfragen

Beitrag von inne » 12.01.2018 15:51:53

Noch ein Tipp: Installiere dir auch Debianxul-ext-webdeveloper und schau dir damit die Seite an, um die ganzen Bezeichner herrauszubekommen.

PS: Danke für den Link zu http://edbrowse.org/ :!:
(=_=)

You guys do what you do best... find something simple and complicate it!

Antworten