Robots Exclusion Standard

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.

Das Protokoll wurde 1994 von einer unabhängigen Gruppierung entwickelt, ist inzwischen jedoch allgemein anerkannt und kann als Quasi-Standard betrachtet werden.

[Bearbeiten] Aufbau

Die Datei robots.txt ist eine Textdatei in einem einfachen, sowohl von Menschen als auch maschinenlesbaren Format. Jede Zeile kann als Datensatz aus zwei, durch einen Doppelpunkt getrennten Feldern aufgefasst werden. Die erste Zeile bestimmt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Verbots-Anweisungen (Disallow) richten. Es darf beliebig viele solcher Blöcke geben.

Befehl	Funktion	Beispiel	Funktion
User-agent:	Name des Webcrawlers	User-agent: Sidewinder	Gilt nur für den Webcrawler namens „Sidewinder“
Disallow:	Auslesen nicht gestatten	Disallow:	Die komplette Webpräsenz darf durchsucht werden
		Disallow: /	Die komplette Webpräsenz darf nicht durchsucht werden
		Disallow: /Temp/ Disallow: /default.html	Das Unterverzeichnis Temp und die Datei default.html dürfen nicht durchsucht werden
*	Wildcard für User-agent	User-agent: *	Gilt für alle Webcrawler
$ (nur Googlebot)	Zeilenende-Anker	Disallow: /*.pdf$	Alle PDF-Dateien werden ignoriert
Allow: (nur Googlebot)	Auslesen erlauben	Disallow: / Allow: /public	Das Verzeichnis /public darf durchsucht werden, der Rest nicht (Syntaxerweiterung des Googlebot)

Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich eine Angabe auf sie bezieht. Ein Webcrawler würde also bei dem Eintrag User-agent: *, der alle Webcrawler anspricht, stoppen, ohne bis zu dem Eintrag weiterzugehen, der extra für ihn angelegt wurde. Für jede URL, die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.

[Bearbeiten] Beispiele

# robots.txt für meineseite.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte verschwinden bald
Disallow: /Privat/Familie/Geburtstage.html

Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.

User-agent: *
Disallow: /

Weiteres Beispiel: robots.txt von Wikipedia

[Bearbeiten] Meta-Tags

Webcrawler können auch durch Meta-Tags im HTML-Quelltext einer Webseite am Indexieren gehindert werden. Auch Meta-Tags sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite weder in den Index der Suchmaschine aufnehmen, noch den Hyperlinks der Seite folgen, lautet der Meta-Tag

<meta name="robots" content=" , " />

In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:

<meta name="robots" content="all" />

Siehe: W3C Recommendation "Robots and the META element"