wget: eingebettete Bilder herunterladen

Vom einfachen Programm zum fertigen Debian-Paket, Fragen rund um Programmiersprachen, Scripting und Lizenzierung.
Antworten
katze123
Beiträge: 88
Registriert: 10.06.2016 20:05:47

wget: eingebettete Bilder herunterladen

Beitrag von katze123 » 07.10.2020 18:00:32

Ich möchte gerne folgende Seite herunterladen: https://www.spaceflightnow.de/mps-ein-s ... -ab/print/
Dabei würde ich auch gerne die eingebetteten Bilder lokal speichern. Ich habe es bereits versucht mit folgendem Befehl:

Code: Alles auswählen

wget -p -nd -k https://www.spaceflightnow.de/mps-ein-schneemann-flacht-sich-ab/print/
aber ich bekomme trotzdem immer nur das HTML-Dokument selbst. Auf einigen anderen Seiten, die ich getestet habe, funktioniert der Befehl genau so, wie er soll.
Darüber hinaus würde ich auch gerne die verlinkten Bilder in voller Größe herunterladen (d.h. wenn man auf die eingebetteten Bilder klickt).
Wie stelle ich das an?

Huo
Beiträge: 614
Registriert: 26.11.2017 14:03:31
Wohnort: Freiburg

Re: wget: eingebettete Bilder herunterladen

Beitrag von Huo » 07.10.2020 18:51:01

Der Quelltext der Seite enthält einen Meta-Eintrag

Code: Alles auswählen

<meta name="Robots" content="noindex, nofollow" />
der Crawlern – und eben auch wget – das Folgen enthaltener Links "untersagt".

Du kannst aber wget per Option "-e robots=off" explizit anweisen, sich darüber hinwegzusetzen:

Code: Alles auswählen

wget -e robots=off -p -nd -k https://www.spaceflightnow.de/mps-ein-schneemann-flacht-sich-ab/print/

katze123
Beiträge: 88
Registriert: 10.06.2016 20:05:47

Re: wget: eingebettete Bilder herunterladen

Beitrag von katze123 » 08.10.2020 00:21:10

Danke, das hat mir sehr weitergeholfen!

Antworten