Robots Exclusion Standard
aus Wikipedia, der freien Enzyklopädie
Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Manche Suchmaschinen zeigen die vom Webcrawler gefundenen URLs trotzdem in den Suchergebnisseiten an, jedoch ohne Beschreibung der Seiten.
Das Protokoll wurde 1994 von einer unabhängigen Gruppierung entwickelt, ist inzwischen jedoch allgemein anerkannt und kann als Quasi-Standard betrachtet werden.
Inhaltsverzeichnis |
[Bearbeiten] Aufbau
Die Datei robots.txt ist eine Textdatei in einem einfachen, sowohl von Menschen als auch maschinenlesbaren Format. Jede Zeile kann als Datensatz aus zwei, durch einen Doppelpunkt getrennten Feldern aufgefasst werden. Die erste Zeile bestimmt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Verbots-Anweisungen (Disallow) richten. Es darf beliebig viele solcher Blöcke geben.
Befehl | Funktion | Beispiel | Funktion |
---|---|---|---|
User-agent: | Name des Webcrawlers | User-agent: Sidewinder | Gilt nur für den Webcrawler namens „Sidewinder“ |
Disallow: | Auslesen nicht gestatten | Disallow: | Die komplette Webpräsenz darf durchsucht werden |
Disallow: / | Die komplette Webpräsenz darf nicht durchsucht werden | ||
Disallow: /Temp/ Disallow: /default.html |
Das Unterverzeichnis Temp und die Datei default.html dürfen nicht durchsucht werden | ||
* | Wildcard für User-agent | User-agent: * | Gilt für alle Webcrawler |
$ (nur Googlebot) | Zeilenende-Anker | Disallow: /*.pdf$ | Alle PDF-Dateien werden ignoriert |
Allow: (nur Googlebot) | Auslesen erlauben | Disallow: / Allow: /public |
Das Verzeichnis /public darf durchsucht werden, der Rest nicht (Syntaxerweiterung des Googlebot) |
Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich eine Angabe auf sie bezieht. Ein Webcrawler würde also bei dem Eintrag User-agent: *
, der alle Webcrawler anspricht, stoppen, ohne bis zu dem Eintrag weiterzugehen, der extra für ihn angelegt wurde. Für jede URL, die ausgeschlossen ist, existiert eine eigene Zeile mit dem Disallow-Befehl. Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem Rautenzeichen (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.
[Bearbeiten] Beispiele
# robots.txt für meineseite.com # Diese Webcrawler schließe ich aus User-agent: Sidewinder Disallow: / User-agent: Microsoft.URL.Control Disallow: / # Diese Verzeichnisse/Dateien sollen nicht durchsucht werden User-agent: * Disallow: /default.html Disallow: /Temp/ # diese Inhalte verschwinden bald Disallow: /Privat/Familie/Geburtstage.html
Mit den folgenden Befehlen wird die komplette Webpräsenz vor einer Indexierung durch Webcrawler gesperrt.
User-agent: * Disallow: /
Weiteres Beispiel: robots.txt von Wikipedia
[Bearbeiten] Meta-Tags
Webcrawler können auch durch Meta-Tags im HTML-Quelltext einer Webseite am Indexieren gehindert werden. Auch Meta-Tags sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite weder in den Index der Suchmaschine aufnehmen, noch den Hyperlinks der Seite folgen, lautet der Meta-Tag
<meta name="robots" content=" , " />
In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:
<meta name="robots" content="all" />
Siehe: W3C Recommendation "Robots and the META element"
[Bearbeiten] Siehe auch
[Bearbeiten] Literatur
- Ian Peacock, Showing Robots the Door, What is Robots Exclusion Protocol?, Ariadne, May 1998, Issue 15, Webversion
[Bearbeiten] Weblinks
- The Web Robots Pages (englisch)
- robots.txt – Robots kontrollieren bei SELFHTML
- Googlebot: Der Web-Crawler von Google
- Methoden zum Erkennen von Webrobots insbesondere auch von Robots, die sich nicht an den Robot Exclusion Standard halten