robots.txt

Die Datei mit dem Namen robots.txt ist die durch Bots (kurz für: Robots; auch: Webcrawler) zuerst angesteuerte Datei einer Website, welche notwendigerweise im Stammverzeichnis dieser positioniert wird. Sie dient der Übermittlung von Anweisungen der Webmaster an die Webcrawler, wie diese mit der angesteuerten Website verfahren sollen.

Durch robots.txt wird Webmastern zum Beispiel die Möglichkeit gegeben, die gesamte oder gezielt einzelne Teile der Website von der Aufnahme in den Index der Suchmaschinen auszuschließen oder die von der Website verlinkten anderen Domains nicht über eben diese Links anzusteuern.

Die in der robots.txt enthaltenen Aufforderungen sind dabei rein als hinweisend, keinesfalls als verpflichtend, zu verstehen: Obwohl sich insbesondere die großen Suchmaschinen von Google, Microsoft und Yahoo zur Einhaltung verpflichten ist das Ignorieren der Anweisungen durch sogenannte “böse” Webcrawler möglich.

Mögliche Anweisungen (inklusive Beispielen) innerhalb der robots.txt sind

  • User-agent:
    Anweisung geltend für einzelne (Sidewinder) oder alle (*) Crawler
  • Disallow:
    Auschluss der gesamten (/) oder bestimmter (/Temp/ oder /*.pdf$) Teile  der Website vom Crawling
  • Allow:
    Explizites Erlauben des Auslesens von bestimmten Teilen, die Teil einer vorher über Disallow ausgeschlossenen Sektion der Website sind
  • Crawl-delay:
    Begrenzung der Crawling Geschwindkeit in Sekunden (120)
  • Sitemap:
    URL der Sitemap einer Website (http://www.OnlineMarketing.de/Sitemap.xml)

Beispielhafter Auszug einer robots.txt Datei:
















# robots.txt für example.com
# Auszuschließende Bots
User-agent: Sidewinder
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

# grundsätzlich nicht zu durchsuchende Verzeichnisse bzw. Dateien
User-agent: *
Disallow: /default.html
Disallow: /Temp/
Disallow: /Privat/Geburtstage.html

# Ausnahme der nicht zu durchsuchenden Verzeichnisse bzw. Dateien
User-agent: *
Allow: /Temp/DauerhafteTemp