Good to Know Database

Webseiten vor der Indizierung durch die Suchmaschinen-Robots schützen


Mit der Datei robots.txt können Sie bestimmte Seiten oder Bereiche Ihrer Webseite vor der Indizierung durch die Robots schützen.

Im einfachsten Fall enthält die robots.txt die folgenden zwei Regeln. Dadurch wird allen Robots eine Indizierung untersagt.

User-agent: *
Disallow: /

Durch die Direktive User-agent wird festgelegt, für welchen User-Agent die nachfolgenden Regeln gelten sollen. Als User-Agent wird in diesem Fall der Suchmaschinen-Robot bezeichnet, welcher die Indizierung vornimmt. In der Robots Database, welche Sie unter http://www.robotstxt.org/db.html finden, sind die verschiedenen Robots aufgeführt. Wird wie in diesem Beispiel ein Stern angegeben, gelten die Regeln für alle Robots.

Die zu schützende Datei beziehungsweise wie in diesem Beispiel das zu schützende Verzeichnis wird mit der Direktive Disallow angegeben. Sollen mehrere Dateien und Verzeichnisse geschützt werden, müssen diese durch weitere Disallow-Zeilen angegeben werden. Jeder Eintrag bei der Direktive Disallow muss mit einem Schrägstrich beginnen und Verzeichnisse mit einem Schrägstrich abgeschlossen werden.

Mit der Direktive Allow kann die Indizierung einer Datei oder eines Verzeichnisses explizit erlaubt werden.

Das folgende Beispiel soll für alle Robots das HTML-Dokument private.html verbergen. Des Weiteren soll das Verzeichniss temp sowie das HTML-Dokument private.html vor der Indizierung durch den Google-Robot Googlebot verborgen werden.

User-agent: *
Disallow: /private.html

User-agent: Googlebot
Disallow: /temp/
Disallow: /files/
Disallow: /private.html

Hinweis: Jeder Abschnitt in der robots.txt ist eigenständig und baut nicht auf einem vorherigen Abschnitt auf.

Durch den folgenden Eintrag wird das Bild /images/image.jpg von der Indizierung durch den Robot Googlebot-Image ausgeschlossen.

User-agent: Googlebot-Image
Disallow: /images/image.jpg

Damit die Bilder auf Ihrer Webseite nicht für die Google Bilder-Suche indiziert werden, geben Sie die folgende Regel an.

User-agent: Googlebot-Image
Disallow: /

Einen bestimmten Dateityp kann man wie folgt ausschließen.

User-agent: Googlebot
Disallow: /*.pdf$


Dieser Eintrag wurde am 16.06.2010 erstellt und zuletzt am 12.05.2011 bearbeitet.

Direkter Link zu dieser Seite: http://www.gtkdb.de/index_1_1020.html

[ Zur Startseite ]   [ Zur Kategorie ]


Valid XHTML 1.0 Transitional Valid CSS Valid Atom 1.0

© 2004-2018 by Georg Kainzbauer