Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Du hast Probleme mit Deinem eMail-Programm, Webbrowser oder Textprogramm? Dein Lieblingsprogramm streikt?
Antworten
Richard
Beiträge: 639
Registriert: 11.10.2012 14:18:37
Lizenz eigener Beiträge: GNU General Public License

Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Beitrag von Richard » 14.08.2019 15:11:06

Hallo,

ich versuche eine Webseite komplett offline zu speichern inkl. aller auf der Seite verlinkten Bildern, aber ohne den ganzen Links zu folgen (die Bilder sind ja auch Links, evtl. kann man da unterscheiden). Im Grunde will ich die Seite genau so sehen wie sie im Browser dargestellt wird, wenn ich sie normal aufrufe. Habe das hier versucht:

Code: Alles auswählen

wget -r -l 1 -np -p --user-agent="Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9b5) Gecko/2008050509 Firefox/3.0b5" url
und

Code: Alles auswählen

wget -r -l 1 -k -np -E -p -e robots=off --user-agent="Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9b5) Gecko/2008050509 Firefox/3.0b5" url
Ich hab dann versucht die Seite mit einem Browser ohne Internetverbindung zu öffnen, da Firefox sonst die Bilder nachlädt. Hier werden keine Bilder angezeigt. Auch ist die Seite komplett "verschoben". Irgendwelche Sachen fehlen. -r -l 1 sollte ja rekursiv laden bis zu einer Tiefe von 1, also alles was auf der betreffenden URL verlinkt ist, also auch die Bilder.

Anderes Problem, da ich die Seiten für das spätere Offline lesen auf das (wifi-only) Tablet speichere: Ich erhalte einen Ordner mit vielen HTMLs. Hatte es aber auch schon so gesehen, dass ein Ordner erstellt wurde, in diesem gab es dann eine index.html (das war die entsprechende SEite) und einen Unterordner wo ALLE für die Darstellung der Seite nötigen Inhalte abgespeichert waren (verlinkte Seiten, Bilder, usw.).

Hab da jetzt verschiedene Seiten (u.a. eine kurze Wikipedia-Seite) versucht. Immer das gleiche Ergebnis.

Benutzeravatar
The Hit-Man
Beiträge: 2171
Registriert: 21.11.2004 17:01:56
Wohnort: Menden ( Sauerland )
Kontaktdaten:

Re: Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Beitrag von The Hit-Man » 19.08.2019 22:57:10

wenn der html code auf einen link ins internet zeigt, dann ist das eben so und bilder oder auch was auch immer bezieht sich dann auf dem link aus dem netz. das kann man nicht mal eben speichern. des weiteren steckt heute auch noch viel javascript hinter irgendwelchen links.
Wer HTML postet oder gepostetes HTML quotet oder sich gepostetes oder
gequotetes HTML beschafft, um es in Verkehr zu bringen, wird geplonkt.

damals windows, früher ubuntu, danach debian, heute arch-linux ;)

Korodny
Beiträge: 705
Registriert: 09.09.2014 18:33:22
Lizenz eigener Beiträge: GNU Free Documentation License

Re: Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Beitrag von Korodny » 20.08.2019 15:15:52

Es geht um eine Seite mit eingebetteten (nicht verlinkten) Bildern,oder habe ich das falsch verstanden? Die speichert Firefox doch mit Steuerung-S problemlos auf der lokalen Platte, als DATEINAME.html und ein Ordner DATEINAME-Dateien, dazu braucht es kein wget. Das kann man dann später mit Hilfe entsprechender Tools sogar alles in eine einzige Datei konvertieren - finde ich handlicher für Backups u.ä. Es gibt auch Firefox-Addons die die angezeigte Seite direkt als eine einzige Datei speichern können.

Wenn du aber mit "verlinkten Bildern" tatsächlich verlinkte Bilder meinst - also "ich muss mit der Maus klicken, dann wird das Bild geladen" - wird es etwas komplizierter. Du kannst wget mitteilen, dass es nur bestimmte Dateiendungen herunterladen soll, oder alles außer bestimmten Dateiendungen. Entweder in dem du dem Tool fertige Listen mit Dateiendungen übergibst, oder mittels RegExps. Ob es dann aber die eigentliche (Start-)Seite überhaupt speichert, wenn du *.html ignoriert haben willst, weiß ich nicht.

Benutzeravatar
Teddybear
Beiträge: 3163
Registriert: 07.05.2005 13:52:55
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Altomünster
Kontaktdaten:

Re: Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Beitrag von Teddybear » 20.08.2019 18:00:05

Schau mal auf diesen Blog, da wirst du, denke ich mal, fündig.
https://www.zechendorf.com/blog/2017/mi ... nterladen/
Versuchungen sollte man nachgeben. Wer weiß, ob sie wiederkommen!
Oscar Wilde

Mod-Voice / My Voice

Antworten