Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
SEO - Suchmaschinenoptimierung
Technisches SEO: Wie robots.txt und Meta Robots Tags die Crawler anleiten

Technisches SEO: Wie robots.txt und Meta Robots Tags die Crawler anleiten

Niklas Lewanczik | 17.03.17

Technische SEO-Maßnahmen wie die robots.txt und Meta Robots Tags spielen für die Suchmaschinenindexierung eine wichtige Rolle. Ihre Optimierung fördert Erfolg im Search.

Für eine gelungene Indexierung bei einer Suchmaschine sind verschiedene SEO-Aspekte von Belang. Content Optimierung, das Generieren von Links usw. Doch die technischen Faktoren, die den Crawlern von Google und Co. bei der Indexierung helfen, sollten nicht vernachlässigt werden. Besonders die robots.txt und Meta Robots Tags können dabei eine bessere Indexierung fördern.

robots.txt und die Vereinfachung der Indexierung

Die robots.txt ist eine Textdatei, wobei jede Zeile aus zwei Feldern besteht, die durch einen Doppelpunkt getrennt sind. Suchmaschinenbots (Crawler, Robots oder Spiders genannt) können dank dieser Datei eine Website indexieren. Denn diese lesen zunächst die robots.txt im Stammverzeichnis (root) der Domain. Also kann diese Datei festlegen, inwieweit ein Bot die Website crawlt. Daher ist es für Websitenbetreiber so wichtig zu wissen, wie man die robots.txt richtig erstellt. Fehler können zu Verwirrungen und damit zu einer fehlerhaften Indexierung führen.

Seit 1994 schreibt der Robots Exclusion Standard vor, woran sich die Textdateien halten müssen. Wenn du nun eine robots.txt erstellst, die beispielsweise die Indexierung deiner Seite durch einen Googlebot vereinfachen soll, stelle sicher, dass du die Datei richtig dargestellt hast. Hier kann auch der robots.txt-Tester von Google helfen.

Wie du robots.txt-Dateien aufbaust

Eine robots.txt findet sich auf der obersten Verzeichnisebene, damit der Crawler etwaige Angaben direkt einlesen kann. Angaben für die Verzeichnisse starten direkt hinter der Domain. Es gibt nun die Anweisungen allow und disallow.

Fangen wir mit einem einfachen Beispiel an. Willst du keinem Bot irgendetwas erlauben, sähe die robots.txt so aus:

User-agent: *

Disallow: /

Bei diesem Exempel steht das Sternchen hinter dem User-agent als Platzhalter für alle Bots. Der Slash hinter der Anweisung disallow bezeichnet alle Daten des Wurzelverzeichnisses mit allen Unterverzeichnissen. Da du aber Crawlern aufgrund einer Indexierung bei deren Suchmaschine erlauben willst, bestimmte Inhalte deiner Seite zu prüfen, solltest du eher wissen, welche einzelnen Seiten du gegebenenfalls unzugänglich machen willst. Sind dies Seiten mit Accounts, die zum Beispiel Google nicht crawlen soll, wäre die robots.txt:

User agent: Googlebot

Disallow: /account*

Des Weiteren können verschiedenste Befehle angewandt werden. So können auch Verzeichnisse gesperrt, dabei jedoch Teilverzeichnisse erlaubt werden. Ein Beispiel wäre:

User agent: *

Disallow: /shop/

Allow: /shop/magazin/

Auch einzelne Seiten können mithilfe der URL gesperrt werden. SEO Book gibt eine gute Übersicht über grundlegende und weitere Fälle beim Aufbau der robots.txt. Zusätzlich sollte auch bedacht werden, dass die robots.txt-Datei eine mögliche Location für die sitemap.xml-Datei ist. Ein Beispiel, wie das bei aussehen könnte, zeigt Sergey Grybniak im Search Engine Journal.

Eine robots.txt.-Datei samt Host und Sitemap, Screenshot Search Engine Journal
Eine robots.txt-Datei samt Host und Sitemap, Screenshot Search Engine Journal

Die Dateien, die Crawlern ihre Anweisungen geben, sind deshalb für SEO so wichtig, weil kleine Fehler, zum Beispiel bei der disallow-Funktion, Seiten für Crawler unzugänglich machen können, von denen du das gar nicht gewollt hast. Und damit kannst du womöglich langfristig auch deinen Traffic einschränken.

Und was sind nun Meta Robots Tags?

Die Meta Robots Tags sind spezielle HTML Meta Tags, die dabei behilflich sind, gesonderte Seiten oder Anhänge zu optimieren und der Indexierung vorzuenthalten oder eben nicht. Die vier grundlegenden Meta Robots Tags sind folgende:

  • follow
  • index
  • nofollow
  • noindex

Dabei wäre die Kombination von index, nofollow dafür verantwortlich, dass Suchmaschinen eine Seite zwar indexieren, jedoch nicht deren Links verfolgen können. So ist die Basis dieser Tags. Sergey Grybniak schlägt vier Schritte vor, wie diese Tags implementiert werden können. Zunächst sollte der Seitenquelltext aufgerufen werden (Strg+U), ehe per Copy and Paste der „head“-Part des Codes einer Seite in ein neues Dokument eingefügt wird. Daraufhin kann dieses Dokument dazu dienen, Entwicklern Richtlinien zu geben, wo, wie und vor allem welche Meta Robots Tags du implementieren willst.

Ein mögliches Beispiel zeigt Google für den Fall, dass eine Seite nicht in der Ergebnissen bei Google News auftauchen soll:

Meta robots tag-Beispiel nach Google, Screenshot Google
Meta robots tag-Beispiel nach Google, Screenshot Google

Zusätzlich zu den genannten vier Tags gibt es weitere, von denen Google die meisten darstellt.

Die meisten gängigen meta robots tags nach Google, Screenshot Google
Die meisten gängigen Meta Robots Tags nach Google, Screenshot Google

Regeln für die Verwendung der Dateien

Bei der Verwendung sowohl von robots.txt und Meta Robots Tags gibt es einige Grundregeln. Nebenbei muss bemerkt werden, dass sich diese Implementierungen nicht in die Quere kommen. Es gilt, dass restriktive Anweisungen Vorrang haben. Wenn also im robots.txt das Crawling der Seite mit allow erlaubt wird, bleibt es trotzdem aus, sofern im Meta Robots Tag für die Seite versehentlich noindex angegeben wurde.

Einfache Regeln – die Sergey Grybniak angibt – für die robots.txt sind außerdem:

  • setze die robots.txt ins oberste Verzeichnis der Seite
  • strukturiere die robots.txt nach dem Muster: User-agent → Disallow → Allow → Host → Sitemap
  • setze jede URL, die du erlauben/verbieten willst in eine eigene Zeile
  • schreibe robots.txt statt Robots.TXT
  • nutze keine Leerzeichen, um Parameter in der Anweisung zu trennen
  • nutze keine Sonderzeichen außer * und $
  • erstelle verschiedene robots.txt-Dateien für unterschiedliche Subdomains

Für die Meta Robots Tags gilt vor allem:

  • entscheide dich je nach Art der gewünschten Indexierung im besten Fall für eine Option
  • vermeide viele Meta Tags und nutze lieber mehr Anweisungen (z.B. noindex und nofollow) in einem Meta Tag
  • versuche, sich widersprechende Meta Tags zu vermeiden, um Fehler bei der Indexierung zu verringern

Während wir an dieser Stelle nur ausschnitthaft die Optionen für Meta Robots Tags und robots.txt aufgezeigt haben, zeigt sich doch, dass die Anwendung dieser SEO stark unterstützen kann. Wenn also neben der Content Optimierung und dem Sammeln möglichst vieler Links oder ähnlichen Strategien auch die technischen Aspekte der Suchmaschinenoptimierung angemessen bearbeitet werden, wächst die begründete Hoffnung auf mehr Search Traffic. Letztlich müssen die Marketer und SEO Experten sich mit der Materie genau auseinandersetzen, um etwaige Fehler zu vermeiden. Doch werden die Textdateien richtig erstellt, ist das Crawling der Suchmaschinen ein Stück weit steuerbar. Sodass sich ein weiterer Weg für die Optimierung der Website und spezieller Marketing Kampagnen öffnet.

Quelle: Search Engine Journal

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

*
*