Crawler

Der Crawler, oder auch Web-Crawler, ist ein Computerprogramm, welches Links im World Wide Web verfolgt und so Daten über Webseiten sammelt.

Die Crawler werden hauptsächlich von Suchmaschinen zum Zweck des Erfassens von Webseiten verwendet. Doch auch die Ermittlung von veränderten, verschobenen oder gelöschten Inhalten gehören zu ihren Aufgaben. Der Crawler beginnt seine Arbeit durch einen „Seed set“ seitens der Suchmaschinen. Hierbei beginnt er das Sammeln von Informationen auf einer willkürlich ausgewählten Webseite und verfolgt nun Links, welche sich auf diesen Webseiten befinden. So arbeiten sich die Crawler entlang der Links durch das World Wide Web, bis sie entweder in eine Schleife oder auf eine Seite ohne weitere Verlinkung geraten.

Hieraus ergibt sich, dass ein „Strongly Connected Core“ existiert, welcher die Webseiten umfasst, die auf andere Seiten verlinken und auf die wiederum selbst verlinkt wird. Im Gegensatz hierzu gibt es noch diejenigen Seiten, welche bloß auf andere Seiten verlinken oder auf die selbst nur verlinkt wird. Webseiten, welche weder verlinken, noch verlinkt sind, können von den Crawlern nicht erfasst und somit auch via Suchmaschinen nicht gefunden gefunden werden.

Die erfassten Informationen über die Webseiten werden anschließend von dem Indexer, einem weiteren Instrument der Suchmaschinen, aufbereitet, um sie schneller durchsuchbar und für den Nutzer verfügbar zu machen.