Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Vom einfachen Programm zum fertigen Debian-Paket, Fragen rund um Programmiersprachen, Scripting und Lizenzierung.
Antworten
Benutzeravatar
heisenberg
Beiträge: 3567
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Beitrag von heisenberg » 06.03.2024 23:24:14

Das ist eine Aufgabe, die ich gelegentlich mal lösen wollte. Bisher hatte ich noch keine befriedigende Lösung gefunden.

Das hier scheint mir aber ganz knorke:

Code: Alles auswählen

chromium \
	--headless \
	--dump-dom 'https://yoursite.com' \
	--virtual-time-budget=10000 \
	--timeout=10000 \
	--run-all-compositor-stages-before-draw \
	--disable-gpu \
	--user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" \
	> ~/yourfile.html
Damit bekomme ich sogar den Webseiteninhalt, wenn der erst nach dem Laden der Webseite dynamisch durch Javascript geholt wird. Timeout-Werte kann man da ggf. noch anpassen.
Jede Rohheit hat ihren Ursprung in einer Schwäche.

inne
Beiträge: 3281
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Beitrag von inne » 07.03.2024 14:09:56

Irgend jemand im Forum hatte mal SingleFile erwähnt. Das finde ich auch ganz gut.
… save an entire webpage including images, styling, frames, fonts etc. as a single HTML file.
https://chromewebstore.google.com/detai ... cpffjipkle
https://addons.mozilla.org/en-US/firefo ... ngle-file/

Benutzeravatar
heisenberg
Beiträge: 3567
Registriert: 04.06.2015 01:17:27
Lizenz eigener Beiträge: MIT Lizenz

Re: Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Beitrag von heisenberg » 07.03.2024 14:32:58

Mein Ansinnen ist hier die Automatisierbarkeit. Single-File ist da wohl nur ein GUI-Plugin?

Auch fonts, Bilder, ... interessieren mich selbst dabei nicht.
Jede Rohheit hat ihren Ursprung in einer Schwäche.

inne
Beiträge: 3281
Registriert: 29.06.2013 17:32:10
Lizenz eigener Beiträge: GNU General Public License
Kontaktdaten:

Re: Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Beitrag von inne » 08.03.2024 06:32:44

heisenberg hat geschrieben: ↑ zum Beitrag ↑
07.03.2024 14:32:58
Mein Ansinnen ist hier die Automatisierbarkeit.
Für Scripting ist das SingleFile wirklich nicht geeignet.

Ich dachte eher, weil es auch unter Firefox verfügbar ist und ich da sonst keine Lösung wie deine kenne.

uname
Beiträge: 12076
Registriert: 03.06.2008 09:33:02

Re: Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Beitrag von uname » 08.03.2024 12:40:49

Vor Jahren habe ich mal Debianhttrack verwendet und das war recht gut. Leider weiß ich nicht, wie gut es heutzutage mit JavaScript umgehen kann.

Benutzeravatar
shoening
Beiträge: 898
Registriert: 28.01.2005 21:05:59
Lizenz eigener Beiträge: MIT Lizenz

Re: Tip: Webseite komplett mit Inhalt nach Javascript-Rendering herunterladen

Beitrag von shoening » 08.03.2024 17:29:10

Hi,

ich verwende für sowas Python mit selenium, damit kann man dann z.B. über den Chromedriver einen headless chrome fernsteuern.

Viele Grüße
Stefan
Bürokratie kann man nur durch ihre Anwendung bekämpfen.

Antworten