Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
SEO - Suchmaschinenoptimierung
Google bringt robots.txt als Internet-Standard auf den Weg

Google bringt robots.txt als Internet-Standard auf den Weg

Niklas Lewanczik | 02.07.19

Das Robots Exclusion Protocol ist seit gut 25 Jahren ein inoffizieller Grundsatz, um Crawler auszuschließen. Nun macht Google es zum formalen Standard.

Wie schon des Öfteren zuvor, nutzt Google einen Geburtstag, um eine wichtige Neuigkeit zu verkünden. Zum 25-jährigen Jubiläum des Robots Exclusion Protocol (REP) oder robots.txt wurde bekanntgegeben, dass diese für Webmaster so relevante Komponente nun endlich zum Internet-Standard werden soll. Außerdem wird Googles robots.txt Parser in Open Source überführt.

Nach 25 Jahren wird das Robots Exclusion Protocol zum Standard

Das kündigte Google beim Jubiläum von robots.txt auf Twitter über den Webmaster Account und im Blogpost an. Nachdem das Protokoll 25 Jahre als de facto-Standard eingesetzt wurde, hat man nun mit Webmastern, anderen Suchmaschinen und dem REP-Entwickler Martijn Koster zusammengearbeitet, um den Standard zu formalisieren.

1994 hatte Koster, selbst Webmaster, ein Protokoll vorgeschlagen, das es den Seitenbetreibern erlaubte, zu kontrollieren, welche Crawler Zugriff auf die Seite erhalten.

Mit robots.txt ist es möglich, einen User Agent und Regeln zu definieren, die dafür sorgen, dass der Crawler nur in dem Umfang auf die Seite zugreift, wie der Webmaster es erlaubt. Dabei kann robots.txt sowohl für eine einzige URL, eine ganze Seite oder bestimmte Elemente funktionieren. Zum Geburtstag gab Google preis, dass über 500 Millionen Websites das Protokoll nutzen, wobei die Elemente „disallow“ und „allow“ sowie „user agent“ am häufigsten vorkommen; aber auch Regeln wie „learn emotion“ wurden gefunden.

Nun soll dieses Protokoll als formaler Internet-Standard gelten, der bei der Internet Engineering Task Force (IETF) offizielle Gültigkeit besitzt. Denn über die Jahre haben Entwickler das Protokoll mitunter recht unterschiedlich interpretiert. Außerdem bemerkt Google, dass Ausnahmefälle, gerade der jüngeren Vergangenheit, nicht abgedeckt werden. Deshalb ist es für Webmaster auch problematisch, die Regeln im Protokoll immerzu richtig zu schreiben. So wurde nun in genannter Kooperation die Nutzung von robots.txt dokumentiert und an die IETF geschickt.

Updates zum Robots Exclusion Protocol

Die Regeln, die 1994 für das Robots Exclusion Protocol festgelegt wurden, werden von Google nicht verändert. Allerdings sollen bisher undefinierte Fälle beim robots.txt Parsing und Matching vereinheitlicht dargestellt werden. Zudem wird das Protokoll auf das moderne Web angepasst. Dazu gehören folgende Änderungen:

  • Jegliches URI-basierte Transfer-Protokoll kann auf robots.txt zurückgreifen. Es ist beispielsweise nicht auf HTTP begrenzt, kann stattdessen auch bei  FTP oder CoAP eingesetzt werden.
  • Entwickler müssen mindestens die ersten 500 Kibibytes des robots.txt parsen. Eine Definition der maximalen Dokumentgröße soll außerdem dafür sorgen, dass die Verbindungen nicht zu lange offen sind.
  • Eine maximale Caching-Zeit von 24 Stunden oder, wenn vorhanden, der Cache Directive Value, geben Seitenbetreibern mehr Flexibilität, um ihr Protokoll wann immer sie möchten zu ändern. Crawler überladen die Seiten dann nicht mit robots.txt-Anfragen. Im HTTP-Kontext etwa könnten Cach Control Header dafür sorgen, die Caching-Zeit zu definieren.
  • Wenn ein zuvor zugängliches robots.txt-Element nicht mehr verfügbar ist, weil es Serverprobleme gibt, werden Seiten, die als „disallowed“ bekannt sind, für eine „angemessene“ Zeitspanne nicht gecrawlt.

Zusätzlich hat Google in dem an die IETF geschickten Draft die Metasprache der angereicherten Backus-Naur-Form einem Update unterzogen, sodass die Syntax für robots.txt klarer definiert wird. Damit können Entwickler letztlich besser parsen.

Google gab weiterhin bekannt, dass undokumentierte oder nicht unterstützte Regeln nicht mehr genutzt werden können oder sollten.

Googles robots.txt Parser jetzt Open Source

In diesem Kontext hat Google ebenfalls verkündet, den eigenen robots.txt Parser als Open Source bereitzustellen. Konkret wurde die C++ library, die Google bei den eigenen Produktionssystemen für Regeln beim Parsing und Matching in robots.txt-Elementen nutzt, für Entwickler geöffnet.

Darüber hinaus hat Google in die Open Source-Version ein Testtool integriert, damit Entwickler ihre Arbeit gleich prüfen können. Die Nutzung soll einfach sein, Google gibt ein stellvertretendes Beispiel:

robots.txt-Beispiel-Code von Google, © Google

Google möchte also den Webmastern und Entwicklern die Chance geben, die bestmögliche Kontrolle über die Informationen zu haben, die sie dem Googlebot anvertrauen möchten, sodass diese in der Suche relevant auftauchen. Nach 25 Jahren Robots Exclusion Protocol können sich die Webmaster nun auf eine Standardisierung desselben einstellen. Das dürfte für sie fehlerhafte Regeln minimieren und für Google langfristig bessere Crawling-Ergebnisse bedeuten. So gewinnen beide, Google und Webmaster, mehr Kontrolle über die Inhalte im modernen Web.

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*