Robots.txt
Haben Sie sich auch schon gewundert, warum das Fehlerprotokoll Ihres
Web-Servers ständig Einträge wie
[error] [client 204.62.245.187] File does not exist:
/usr/local/etc/httpd/htdocs/meinesupersite/robots.txt
enthält?
Wenn Sie Ihre Website bei Suchmaschinen (Engines) anmelden, "besucht"
die Suchmaschine Ihre Website, um sie zu erfassen. Dabei wird von
den meisten Suchmaschinen in der Regel automatisch auch nach der
Datei robots.txt gesucht. Ist die Datei nicht vorhanden, wird der
bekannte Fehler erzeugt.
Die Verwendung der Datei robots.txt ist nicht zwingend erforderlich.
Statt der robots.txt können Sie auch alternativ den Meta-Tag
"robots" verwenden. Wer sich allerdings bei hunderten
von Suchmaschinen angemeldet hat (z. B. mit Hilfe von Hello Engines!),
wird sich wundern, wie oft diese Fehlermeldungen erscheinen, sofern
die robots.txt nicht vorhanden ist. Beachten Sie, dass nicht wenige
Suchmaschinen Ihre Website täglich besuchen! Hier kann die
error.log schnell ungeahnte Dateigrößen voll mit unrelevanten
Fehlermeldungen enthalten.
Sie können für Ihre Website in der Datei robots.txt festlegen,
welche Seiten Ihrer Website von der Indizierung ausgenommen werden
sollen. Beachten Sie, dass nur eine robots.txt auf Ihren Server
berücksichtigt wird und diese muss im Top-Level stehen. Auf
einem UNIX-System könnte das beispielsweise das Verzeichnis
/usr/local/etc/httpd/htdocs/robots.txt
sein.
Die Syntax für die Datei robots.txt ist sehr einfach und ihr
Inhalt sieht in der Regel wie folgt aus:
User-agent: *
Disallow: /cgi-bin/
Disallow: /kundendaten/
In diesem Fall werden zwei Verzeichnisse von der Indizierung ausgenommen.
Für jedes Verzeichnis, das nicht durch die Suchmaschine indiziert
werden soll, müssen Sie eine separate "Disallow"-Zeile
einfügen.
Um beispielsweise allen Robots den Zugriff, bzw. die Indizierung
Ihrer vollständigen Website zu untersagen, geben Sie folgende
Zeilen in die Datei robots.txt ein:
User-agent: *
Disallow: /
Um allen Robots den Zugriff, bzw. die Indizierung Ihrer vollständigen
Website zu erlauben, geben Sie folgende Zeilen in die Datei robots.txt
ein:
User-agent: *
Disallow:
Um einem bestimmten Robot den Zugriff auf Ihre Verzeichnisse zu
untersagen, geben Sie Folgendes ein:
User-agent: Yahoo
Disallow: /
Um nur einem bestimmten Robot den Zugriff auf Ihre Verzeichnisse
zu erlauben (und alle anderen auszuschließen), geben Sie Folgendes
ein:
User-agent: Yahoo
Disallow:
User-agent: *
Disallow: /
Sie können beispielsweise auch einzelne Seiten von der Indizierung
ausnehmen:
User-agent: *
Disallow: /kundendaten/passwoerter.html
|