Wer eine Webseite im Internet lokal auf seinem PC speichern möchte, wählt dazu die Funktion „Speichern unter…“ im Browser aus. In wenigen Sekunden ist eine Kopie der Webseite erstellt. Mit Hilfe der Speicheroptionen kann zusätzlich noch angegeben werden, ob Bilder ebenfalls gespeichert werden sollen oder nur der HTML-Quelltext. Wenn nun nach dem Download die lokale Datei aufgerufen wird gleicht dieses exakt dem Original. Ruft man allerdings diese lokale Kopie mit deaktivierter Internetverbindung auf, so gleicht die heruntergeladene Seite so gar nicht mehr dem Original. Dies liegt in erster Linie daran, dass nicht alle Inhalte mit der Funktion „Speichern unter…“ heruntergeladen werden können. Oftmals werden externe Javascript-Dateien in die Webseite eingebunden, die beim Download nicht berücksichtigt oder die nach dem Download nicht mit der lokalen Kopie verknüpft werden.

Eine sehr gute Alternative bietet das Kommandozeilenprogramm wget. Dieses Tool beherrscht neben http auch https und ftp. Das Open-Source-Programm ist für nahezu alle Betriebssysteme erhältlich (Windows, Linux, MacOS). Mit über einhundert Parameter, die dem Programm übergeben werden können, bietet es sehr gute Möglichkeiten vollständige Webauftritte zu archivieren, so dass diese später offline betrachtet werden können. Auch eine Linkumschreibung zu den lokalen Pfaden beherscht das Tool.

Wie mächtig das Tool ist sollen die folgenden Beispiele zeigen. Eine Übersicht über alle Parameter, die an das Programm übergeben werden können erhält man über die Hilfeseite:

Linux:

man wget

Windows:

wget --help

Beispiele

1. Download einer Datei
wget http://meinserver.com/datei.rar

2. Download einer Datei, Speicherung mit individuellem Dateinamen
wget ‐‐output-document=datei.html meinserver.com

3. Download einer Datei, Speicherung in einem Ordner
wget ‐‐directory-prefix=ordner/unterordner meinserver.com

4. Fortsetzung eines Downloads, der mit wget begonnen wurde
wget ‐‐continue meinserver.com/big.data.iso

5. Download einer Datei nur dann, wenn die Version auf dem Server neuer ist als die lokale Kopie
wget ‐‐continue ‐‐timestamping wordpress.org/latest.zip

6. Download mehrerer  URLs mit wget. Die Zielurls werden zeilenweise über eine Textdatei eingebunden
wget ‐‐input liste-der-urls.txt

7. Download von Dateien mit fortlaufendem Dateinamen
wget http://meinserver.com/bilder/{1..20}.jpg

8. Download einer Webseite mit allen Designelementen (Bilder, CSS, …) zur Offline-Archivierung
wget ‐‐page-requisites ‐‐span-hosts ‐‐convert-links ‐‐adjust-extension http://meinserver.com/dir/file

Webseiten mit Wget spiegeln

9. Download einer vollständigen Website mit allen verlinkten Seiten und Dateien
wget ‐‐execute robots=off ‐‐recursive ‐‐no-parent ‐‐continue ‐‐no-clobber http://meinserver.com/

10. Download von allen MP3-Dateien in einem Unterverzeichnis
wget ‐‐level=1 ‐‐recursive ‐‐no-parent ‐‐accept mp3,MP3 http://meinserver.com/mp3/

11. Download von allen Bildern aus einem bestimmten Verzeichnis
wget ‐‐directory-prefix=files/pictures ‐‐no-directories ‐‐recursive ‐‐no-clobber ‐‐accept jpg,gif,png,jpeg http://meinserver.com/images/

12. Download von PDF-Dateien von einer Website
wget ‐‐mirror ‐‐domains=abc.com,files.abc.com,docs.abc.com ‐‐accept=pdf http://abc.com/

13. Download von allen Dateien einer Website ausgenommen bestimmter Verzeichnisse
wget ‐‐recursive ‐‐no-clobber ‐‐no-parent ‐‐exclude-directories /forums,/support http://meinserver.com

 

Wget bei geschützten Seiten

Wget kann auch Inhalte gerunterladen, die hinter einer Benutzerauthentifizierung liegen. Ebenso kann ein HTTP Referer und/oder Useragent angegeben werden

14. Download von Dateien eines Servers der den Useragent und HTTP Referer überprüft
wget ‐‐refer=http://google.com ‐‐user-agent=”Mozilla/5.0 Firefox/4.0.1″ http://nytimes.com

15. Download von Dateien einer passwortgeschützten Seite
wget ‐‐http-user=just4it ‐‐http-password=hello123 http://meinserver.com/secret/file.zip

16. Speichern von Seiten, die hinter einer Login-Maske liegen. User und password müssen durch die Feldnamen des Formulars ersetzt werden
wget ‐‐cookies=on ‐‐save-cookies cookies.txt ‐‐keep-session-cookies ‐‐post-data ‘user=just4it&password=123′ http://meinserver.com/login.php
wget ‐‐cookies=on ‐‐load-cookies cookies.txt ‐‐keep-session-cookies http://meinserver.com/paywall

Information von Dateien mit wget auslesen

17. Größe einer Datei feststellen ohne diese herunterzuladen (die Größe wird über die inhaltliche Länge der Response ermittelt (in Byte)
wget ‐‐spider ‐‐server-response http://meinserver.com/file.iso

18. Download und öffnen einer Datei ohne diese lokal zu speichern
wget ‐‐output-document – ‐‐quiet google.com/humans.txt

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert