Suchmaschinen und die ROBOTS.TXT Datei.
Wie ist die robots.txt aufgebaut und wofür ist sie da? Wie schützt man Verzeichnisse und Dateien oder Webseiten vor der Indexierung der Suchmaschinen-Roboter.
Sie haben eine Internetseite und möchten aber nicht, dass die Suchmaschinen alle Dateien und Ordner durchsuchen, sondern nur solche die von Ihnen freigegeben wurden. Oder aber Sie möchten bestimmten Suchmaschinen verbieten, Ihre Webseite zu durchsuchen.
Hierfür eignet sich eine robots.txt Datei.
Aber zuerst ein paar Hintergrundinformationen.
Was ist überhaupt ein Robot oder Spider oder Crawler?.
Robots sind Programme oder Skripte, die von Suchmaschinen losgeschickt werden und sich von Webseite zu Webseite durchs Internet zu arbeiten.
Die gefundenen Webseiten werden indiziert und in den Datenbeständen der Suchmaschinen aufgenommen. Ein Robot sucht nach Links in einer Webseite und folgt diesen dann. Somit hat ein Webmaster keine Kontrolle darüber, welche Wege sich der Robot sucht.
Aus diesem Grund sollte in jeder Webseite eine robots.txt datei vorhanden sein.
Fast alle Suchmaschinen-Robots halten sich an die Regeln in der robots.txt und suchen zuerst nach dieser Datei, bevor Sie mit dem Indexieren Ihrer Seiten beginnen.
Oft kommt es vor, dass man auf seinem Webserver Dateien liegen hat, die nicht für die Öffentlichkeit bestimmt sind oder einfach nicht in den Suchmaschinen aufgenommen werden sollen, wie zum Beispiel nicht freigegebene Seiten, Programme, Skripte, nicht fertig gestellte Seiten oder Webseiten, die nur für einen bestimmten Personenkreis zugänglich sein sollen oder auch Logfiles.
Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis/ Root-Verzeichnis (http://www.beispielseite.de/robots.txt) einer Domain abgelegt werden muss.
Sie gibt den Robots an, wo sie nicht suchen dürfen und welche speziellen Seiten nicht in den Index aufgenommen werden sollen.
Pro Domain gibt es nur eine robots.txt; auch sollten Sie darauf achten, dass alle Buchstaben klein geschrieben werden müssen.
Wichtig
Beim erstellen der robots.txt Datei darauf achten, dass man auch wirklich einen Texteditor benutzt (Notepad unter Windows) und nicht etwa einen HTML Editor.
Aufbau einer robots.txt Datei
In einer robots.txt Datei können mehrere Regeln hintereinander festgelegt werden. Diese Regeln bestehen immer aus zwei Teilen.
1. Für wen ist diese Regel bestimmt? Hierbei kann man einzelne Robots mit Namen ansprechen oder die Regel für alle Robots gültig machen.
Die Suchmaschinen geben Ihren Robots verschiedene Namen, diese sind in Ihren Logfile-Dateien ersichtlich.
Der Robot von AltaVista heißt zum Beispiel Scooter. Viele Suchmaschinen geben auf Ihren Webseiten an, unter welchem Namen Ihre Robots durch das Web wandern.
Pro Zeile kann man einen Robot angeben - jede Zeile muss mit dem Wort "User-agent" und einem Doppelpunkt beginnen.
Beispiel:
User-agent: irgendein robot
2. nun folgt eine Auflistung der Verzeichnisse und Dateien, die nicht bzw. aufgenommen werden sollen. Dabei muss für jedes Verzeichnis oder Datei eine neue Zeile angegeben werden, angefangen mit Disallow oder Allow, dann folgt ein Doppelpunkt und die Angabe der Datei oder des Verzeichnisses.
Disallow: /verzeichnis1/
Disallow: /verzeichnis2/unterverzeichnis1/
Disallow: /beispiel.html
Allow: /verzeichnis3/
Sie müssen darauf achten, dass der Pfad ohne Domain angeben wird und immer mit einem Slash beginnt.
Wenn Sie Kommentare einfügen möchten, beginnen Sie den Kommentar mit einer Raute
# Ihr Kommentar
Weitere Beispiele:
# Der Stern (Wildchar) spricht alle Suchmaschinen an.
User-agent: *
# Um eine Webseite ganz von der Indexierung auszuschließen benutzt man folgenden Befehl.
User-agent: *
Disallow: /
# Läßt man den Slash "/" weg, gibt man die Webseite komplett für die Indexierung frei.
User-agent: *
Disallow:
# Anweisungen für mehrere Robots.
User-agent: robot1
Disallow: /testseite/test1.html
User-agent: robot2
Disallow: /testseite/spezialseite/
User-agent: robot3
Disallow: /
# Die komplette Webseite ist für eMail Sammler gesperrt.
Diese Robots werden dazu benutzt Ihre eMail-Adressen einzusammeln z.B. aus Gästebüchern, um anschließend haufenweise Werbemails zu verschicken.
Es ist fraglich ob sich diese Robots an die Anweisung halten, wahrscheinlich eher nicht.
User-agent:EmailCollector
Disallow: /
Zusätzliche Anweisungen für Suchmaschinen lassen sich über Meta-Tags realisieren.
Möchten Sie nun wissen, ob sie alles richtig gemacht haben?.
Lassen Sie Ihre fertige robots.txt Datei auf korrekte Schreibweise überprüfen.
robots.txt syntax checker
Die offizielle Infoseite finden Sie unter www.robotstxt.org
Auf der Webseite von Baynado’s Suchmaschinenblog sind die Namen, aller wichtigen Roboter der Suchmaschinen aufgelistet.

