|
Bei dem Aufruf von wget -r wird immer ein Ordner mit
dem Namen der Webseite erstellt. Will man dies verhindern, lautet der
Aufruf wget -r -nd.
Aber Vorsicht mit gleich lautenden Dateinamen: Sollte ein Name
schon vorhanden sein, überschreibt wget den Inhalt
ohne zu fragen.
Will man das Anlegen der Ordner aus irgendeinem Grund erzwingen,
lautet die Option -x oder in der langen Version
--force-directories.
Die Verzeichnisstruktur wird nun komplett übernommen.
Neben diesen beiden bietet wget noch eine dritte
Möglichkeit. Hierbei wird die Verzeichnisstruktur übernommen, doch
wird der Ordner mit dem Domainnamen weg gelassen. Dies erreicht man
mit -nH (--no-host-directories).
|
Wildcards können bei wget nicht verwendet werden.
Es gibt aber dennoch eine Möglichkeit, nur spezielle Dateitypen zu bekommen.
Dafür muss man eine Liste mit -A (--accept) erstellen.
user@linux ~$
wget -r -A jpg,png http://www.selflinux.de
|
Bei diesem Aufruf werden rekursiv die Dokumente nach *.jpg und
*.png durchsucht und abgespeichert. Da HTTP keinen List-Befehl
kennt, muss wget zuerst alle HTML-Dateien herunterladen,
um an die Links zu kommen. Sobald die Bilder gefunden sind, werden
die HTML-Dateien gelöscht.
Der Umkehrbefehl von -A ist -R (--reject).
Sollen alle Dateien, ausser *.jpg und *.png geholt
werden, lautet der Aufruf
user@linux ~$
wget -r -R jpg,png http://www.selflinux.de
|
|
Auf die Grösse des Downloads kann aber nicht nur über -A
und -R Einfluss genommen werden, sondern
auch mittels -Q (--quota). Die Grössenangabe erfolgt
in Bytes und legt den Wert für den ganzen Download fest.
Da die Angabe grosser Werte in Bytes mühsam ist, kann man auch
andere Einheiten verwenden. Für Megabytes wird an die Zahl ein m
angehängt, für Kilobytes dient ein k.
user@linux ~$
wget -r -nH -Q5m http://www.selflinux.de
|
Damit werden maximal 5 Megabyte Daten von
www.selflinux.de geholt und im aktuellen Verzeichnis abgelegt.
Sind weniger als 5 MB Daten vorhanden, kann wget ja nicht
das ganze Quota ausnutzen.
|
Holt man sich öfters Daten vom gleichen Server, möchte man ja nur
die neuesten Dateien herunterladen. Mit -N (--timestamping)
veranlasst man wget, vor dem Download das Datum der Datei auf dem
Server mit dem der lokalen Kopie zu vergleichen. Nur wenn die
lokale Datei veraltet ist, beginnt wget mit dem Download.
user@linux ~$
wget -N http://www.selflinux.de
|
|
Will man einen Proxy-Server verwenden, genügt die Option
-Y on/off. Dabei wird auf die Umgebungsvariable
$http_proxy ausgelesen. Diese muss natürlich gesetzt werden:
user@linux ~$
export http_proxy="http://meinproxy.provider.de:3128"
|
|
|
|