Google bringt robots.txt als Internet-Standard auf den Weg

Das Robots Exclusion Protocol ist seit gut 25 Jahren ein inoffizieller Grundsatz, um Crawler auszuschließen. Nun macht Google es zum formalen Standard.

Wie schon des Öfteren zuvor, nutzt Google einen Geburtstag, um eine wichtige Neuigkeit zu verkünden. Zum 25-jährigen Jubiläum des Robots Exclusion Protocol (REP) oder robots.txt wurde bekanntgegeben, dass diese für Webmaster so relevante Komponente nun endlich zum Internet-Standard werden soll. Außerdem wird Googles robots.txt Parser in Open Source überführt.

Nach 25 Jahren wird das Robots Exclusion Protocol zum Standard

Das kündigte Google beim Jubiläum von robots.txt auf Twitter über den Webmaster Account und im Blogpost an. Nachdem das Protokoll 25 Jahre als de facto-Standard eingesetzt wurde, hat man nun mit Webmastern, anderen Suchmaschinen und dem REP-Entwickler Martijn Koster zusammengearbeitet, um den Standard zu formalisieren.

Today we're announcing that after 25 years of being a de-facto standard, we worked with Martijn Koster (@makuk66), webmasters, and other search engines to make the Robots Exclusion Protocol an official standard!https://t.co/Kcb9flvU0b

— Google Search Central (@googlesearchc) July 1, 2019

1994 hatte Koster, selbst Webmaster, ein Protokoll vorgeschlagen, das es den Seitenbetreibern erlaubte, zu kontrollieren, welche Crawler Zugriff auf die Seite erhalten.

It's 1994 and crawlers are overwhelming servers 🥺. To help webmasters, Martijn Koster (@makuk66), a webmaster himself, proposes a protocol to control what URLs crawlers may access on sites 🧐.
https://t.co/HiRsEgc2xO

— Google Search Central (@googlesearchc) July 1, 2019

Mit robots.txt ist es möglich, einen User Agent und Regeln zu definieren, die dafür sorgen, dass der Crawler nur in dem Umfang auf die Seite zugreift, wie der Webmaster es erlaubt. Dabei kann robots.txt sowohl für eine einzige URL, eine ganze Seite oder bestimmte Elemente funktionieren. Zum Geburtstag gab Google preis, dass über 500 Millionen Websites das Protokoll nutzen, wobei die Elemente „disallow“ und „allow“ sowie „user agent“ am häufigsten vorkommen; aber auch Regeln wie „learn emotion“ wurden gefunden.

Nun soll dieses Protokoll als formaler Internet-Standard gelten, der bei der Internet Engineering Task Force (IETF) offizielle Gültigkeit besitzt. Denn über die Jahre haben Entwickler das Protokoll mitunter recht unterschiedlich interpretiert. Außerdem bemerkt Google, dass Ausnahmefälle, gerade der jüngeren Vergangenheit, nicht abgedeckt werden. Deshalb ist es für Webmaster auch problematisch, die Regeln im Protokoll immerzu richtig zu schreiben. So wurde nun in genannter Kooperation die Nutzung von robots.txt dokumentiert und an die IETF geschickt.

Updates zum Robots Exclusion Protocol

Die Regeln, die 1994 für das Robots Exclusion Protocol festgelegt wurden, werden von Google nicht verändert. Allerdings sollen bisher undefinierte Fälle beim robots.txt Parsing und Matching vereinheitlicht dargestellt werden. Zudem wird das Protokoll auf das moderne Web angepasst. Dazu gehören folgende Änderungen:

Jegliches URI-basierte Transfer-Protokoll kann auf robots.txt zurückgreifen. Es ist beispielsweise nicht auf HTTP begrenzt, kann stattdessen auch bei FTP oder CoAP eingesetzt werden.
Entwickler müssen mindestens die ersten 500 Kibibytes des robots.txt parsen. Eine Definition der maximalen Dokumentgröße soll außerdem dafür sorgen, dass die Verbindungen nicht zu lange offen sind.
Eine maximale Caching-Zeit von 24 Stunden oder, wenn vorhanden, der Cache Directive Value, geben Seitenbetreibern mehr Flexibilität, um ihr Protokoll wann immer sie möchten zu ändern. Crawler überladen die Seiten dann nicht mit robots.txt-Anfragen. Im HTTP-Kontext etwa könnten Cach Control Header dafür sorgen, die Caching-Zeit zu definieren.
Wenn ein zuvor zugängliches robots.txt-Element nicht mehr verfügbar ist, weil es Serverprobleme gibt, werden Seiten, die als „disallowed“ bekannt sind, für eine „angemessene“ Zeitspanne nicht gecrawlt.

Zusätzlich hat Google in dem an die IETF geschickten Draft die Metasprache der angereicherten Backus-Naur-Form einem Update unterzogen, sodass die Syntax für robots.txt klarer definiert wird. Damit können Entwickler letztlich besser parsen.

Google gab weiterhin bekannt, dass undokumentierte oder nicht unterstützte Regeln nicht mehr genutzt werden können oder sollten.

Googles robots.txt Parser jetzt Open Source

In diesem Kontext hat Google ebenfalls verkündet, den eigenen robots.txt Parser als Open Source bereitzustellen. Konkret wurde die C++ library, die Google bei den eigenen Produktionssystemen für Regeln beim Parsing und Matching in robots.txt-Elementen nutzt, für Entwickler geöffnet.

To help developers create parsers that reflect the Robots Exclusion Protocol requirements, we're releasing our robots.txt parser as open source!
Updated to cover all corner cases, the parser ensures that Googlebot only crawls what it's allowed to.https://t.co/NmbLRzDkHF

— Google Search Central (@googlesearchc) July 1, 2019

Darüber hinaus hat Google in die Open Source-Version ein Testtool integriert, damit Entwickler ihre Arbeit gleich prüfen können. Die Nutzung soll einfach sein, Google gibt ein stellvertretendes Beispiel:

Google möchte also den Webmastern und Entwicklern die Chance geben, die bestmögliche Kontrolle über die Informationen zu haben, die sie dem Googlebot anvertrauen möchten, sodass diese in der Suche relevant auftauchen. Nach 25 Jahren Robots Exclusion Protocol können sich die Webmaster nun auf eine Standardisierung desselben einstellen. Das dürfte für sie fehlerhafte Regeln minimieren und für Google langfristig bessere Crawling-Ergebnisse bedeuten. So gewinnen beide, Google und Webmaster, mehr Kontrolle über die Inhalte im modernen Web.

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentar

_* Hiermit willige ich in die Verarbeitung meiner angegebenen personenbezogenen Daten für das Kommentieren des Beitrags der Onlinemarketing.de GmbH ein. Mir ist bekannt, dass ich meine Einwilligung jederzeit durch eine formlose E-Mail an info@onlinemarketing.de widerrufen kann. Durch den Widerruf der Einwilligung wird die Rechtmäßigkeit der Verarbeitung, die aufgrund der Einwilligung bis zum Widerruf erfolgt ist, nicht berührt. Weitere Informationen über den Umgang mit Ihren Daten finden Sie in unserer Datenschutzerklärung.

Google bringt robots.txt als Internet-Standard auf den Weg

Nach 25 Jahren wird das Robots Exclusion Protocol zum Standard

Updates zum Robots Exclusion Protocol

Googles robots.txt Parser jetzt Open Source

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Kommentare aus der Community

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Beliebte Kategorien

Nützlich

OnlineMarketing.de