Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Richard · Beitrag von **Richard** » 14.08.2019 15:11:06

Hallo,

ich versuche eine Webseite komplett offline zu speichern inkl. aller auf der Seite verlinkten Bildern, aber ohne den ganzen Links zu folgen (die Bilder sind ja auch Links, evtl. kann man da unterscheiden). Im Grunde will ich die Seite genau so sehen wie sie im Browser dargestellt wird, wenn ich sie normal aufrufe. Habe das hier versucht:

Code: Alles auswählen

wget -r -l 1 -np -p --user-agent="Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9b5) Gecko/2008050509 Firefox/3.0b5" url

und

Code: Alles auswählen

wget -r -l 1 -k -np -E -p -e robots=off --user-agent="Mozilla/5.0 (X11; U; Linux i686; de; rv:1.9b5) Gecko/2008050509 Firefox/3.0b5" url

Ich hab dann versucht die Seite mit einem Browser ohne Internetverbindung zu öffnen, da Firefox sonst die Bilder nachlädt. Hier werden keine Bilder angezeigt. Auch ist die Seite komplett "verschoben". Irgendwelche Sachen fehlen. -r -l 1 sollte ja rekursiv laden bis zu einer Tiefe von 1, also alles was auf der betreffenden URL verlinkt ist, also auch die Bilder.

Anderes Problem, da ich die Seiten für das spätere Offline lesen auf das (wifi-only) Tablet speichere: Ich erhalte einen Ordner mit vielen HTMLs. Hatte es aber auch schon so gesehen, dass ein Ordner erstellt wurde, in diesem gab es dann eine index.html (das war die entsprechende SEite) und einen Unterordner wo ALLE für die Darstellung der Seite nötigen Inhalte abgespeichert waren (verlinkte Seiten, Bilder, usw.).

Hab da jetzt verschiedene Seiten (u.a. eine kurze Wikipedia-Seite) versucht. Immer das gleiche Ergebnis.

The Hit-Man · Beitrag von **The Hit-Man** » 19.08.2019 22:57:10

wenn der html code auf einen link ins internet zeigt, dann ist das eben so und bilder oder auch was auch immer bezieht sich dann auf dem link aus dem netz. das kann man nicht mal eben speichern. des weiteren steckt heute auch noch viel javascript hinter irgendwelchen links.

Korodny · Beitrag von **Korodny** » 20.08.2019 15:15:52

Es geht um eine Seite mit eingebetteten (nicht verlinkten) Bildern,oder habe ich das falsch verstanden? Die speichert Firefox doch mit Steuerung-S problemlos auf der lokalen Platte, als DATEINAME.html und ein Ordner DATEINAME-Dateien, dazu braucht es kein wget. Das kann man dann später mit Hilfe entsprechender Tools sogar alles in eine einzige Datei konvertieren - finde ich handlicher für Backups u.ä. Es gibt auch Firefox-Addons die die angezeigte Seite direkt als eine einzige Datei speichern können.

Wenn du aber mit "verlinkten Bildern" tatsächlich verlinkte Bilder meinst - also "ich muss mit der Maus klicken, dann wird das Bild geladen" - wird es etwas komplizierter. Du kannst wget mitteilen, dass es nur bestimmte Dateiendungen herunterladen soll, oder alles außer bestimmten Dateiendungen. Entweder in dem du dem Tool fertige Listen mit Dateiendungen übergibst, oder mittels RegExps. Ob es dann aber die eigentliche (Start-)Seite überhaupt speichert, wenn du *.html ignoriert haben willst, weiß ich nicht.

Teddybear · Beitrag von **Teddybear** » 20.08.2019 18:00:05

Schau mal auf diesen Blog, da wirst du, denke ich mal, fündig.
https://www.zechendorf.com/blog/2017/mi ... nterladen/

debianforum.de

Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Re: Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Re: Download einer Webseite mit wget mit Bildern, ohne Links zu folgen

Re: Download einer Webseite mit wget mit Bildern, ohne Links zu folgen