Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Neuer Crawler GPTBot: Websites können Inhalte für OpenAI blockieren

Neuer Crawler GPTBot: Websites können Inhalte für OpenAI blockieren

Niklas Lewanczik | 08.08.23

OpenAI nutzt den GPTBot, um Websites zu crawlen und eigene KI-Modelle zu optimieren. Doch die Seitenbetreiber:innen können das Crawling ganz oder teilweise verwehren.

OpenAI, das Unternehmen hinter ChatGPT und KI-Modellen wie GPT-4, hat einen neuen Web Crawler gelauncht. Der GPTBot durchsucht ähnlich wie der Google Web Crawler das Internet nach relevanten Inhalten. Dabei soll der Crawler dazu beitragen, dass OpenAI aktuelle und künftige KI-Modelle auf Basis der Web-Inhalte trainieren und nachhaltig verbessern kann.

GPTBot kann KI-Modelle verlässlicher machen

Wenn viele Websites dem OpenAI Crawler erlauben, auf ihre Inhalte zuzugreifen, könnte das die Qualität der Sprachmodelle und demnach auch der Tools wie ChatGPT langfristig steigern. Bezüglich der Sicherheit und Fehlerfreiheit könnten diese einen Entwicklungssprung machen, erklärt OpenAI auf dem eigenen Blog:

Web pages crawled with the GPTBot user agent may potentially be used to improve future models and are filtered to remove sources that require paywall access, are known to gather personally identifiable information (PII), or have text that violates our policies. Allowing GPTBot to access your site can help AI models become more accurate and improve their general capabilities and safety. Below, we also share how to disallow GPTBot from accessing your site.

Kritik wegen potentiellen Datenklaus – Opt-out für GPTBot ist möglich

Unternehmen wie OpenAI, Google und Co., die KI-Sprachmodelle trainieren, stehen seit einiger Zeit bezüglich potentiellen Datendiebstahls in der Kritik. Vorgeworfen wird den Unternehmen unter anderem, dass für das Training von Sprachmodellen mitunter Inhalte genutzt werden, für deren Verwendung die Unternehmen keine Befugnis haben, weil ihnen eine Einwilligung der Rechteinhaber:innen oder ein Copyright fehlt. So klagte zum Beispiel die Komikerin und Schauspielerin Sarah Silverman gegen OpenAI und Meta, weil eine Copyright-Verletzung ihres Werks vorgelegen haben soll. Sam Altman, CEO von OpenAI, erklärte daraufhin kurzerhand:

We’re trying to work on new models where if an AI system is using your content, or if it’s using your style, you get paid for that.

Mit dem neuen Crawler GPTBot möchte OpenAI die Inhaltsgenerierung womöglich in geregeltere Bahnen lenken. Wer als Seitenbetreiber:in aber nicht möchte, dass der eigene Content gecrawlt wird, kann sich für einen Opt-out entscheiden. Dabei ist es möglich, den Bot entweder komplett zu blockieren oder ihm einen Teilzugriff zu gewähren. Dafür können die Seitenbetreiber:innen auf robots.txt zugreifen. Zum Blockieren des GPTBots können sie folgenden Code nutzen:

User-agent: GPTBot
Disallow: /

Um eine Teilerlaubnis zu geben, bietet sich wiederum dieser Code an:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Angesichts der Relevanz, die die OpenAI-KI-Modelle und das Tool ChatGPT für die Informationsgewinnung von Menschen inzwischen haben – nicht zuletzt auch, weil die Sprachmodelle als Grundlage für den Bing Chat und andere KI-Integrationen dienen –, sollten sich die Seitenbetreiber:innen aber genau überlegen, ob sie dem Crawler ihre Inhalte verwehren. Inhalte aus den Daten-Sets von vor September 2021, die für GPT-3.5 und GPT-4 generiert wurden, können bislang nicht nachträglich entfernt werden.

OpenAI gibt den Usern der eigenen Dienste sowie den Seitenbetreiber:innen indes mehr Kontrolle. Das Blockieren von ChatGPT Plugins war auf Websites schon etwas länger möglich. Zudem können Nutzer:innen von ChatGPT seit einiger Zeit den Opt-out für den Chat-Verlauf aktivieren, um den eigenen Datenschutz zu erhöhen.

Erste Probleme beim Crawling: Alternativen zu robots.txt in Planung

Das Crawling über GPTBot verläuft allerdings nicht reibungslos. Das deutet ein User Post aus dem Webmaster World Forum an. Demnach hat der Crawler automatisch 403-Fehlermeldungen für die Seiten des betroffenen Users ausgespielt, weil der neue Crawler nicht in seiner Whitelist war und auch den Test, „menschlich“ zu handeln, nicht bestanden hat.

Just had over 1000 hits from this bot, hitting individual pages. As it happens my site automatically served a 403 for each hit because the bot is not in my whitelist, nor did it pass the ‚human‘ test.

Grundsätzlich ist das fast 30 Jahre alte Quasistandardprotokoll robots.txt im Kontext von KI-Content-Generierung nicht mehr uneingeschränkt zeitgemäß. Dieser Meinung ist zumindest Google. Das Unternehmen möchte neue Kontrollmechanismen für Websites schaffen und stößt die Entwicklung von Alternativen an. Danielle Romain, Googles VP of Trust, schreibt:

As new technologies emerge, they present opportunities for the web community to evolve standards and protocols that support the web’s future development. One such community-developed web standard, robots.txt, was created nearly 30 years ago and has proven to be a simple and transparent way for web publishers to control how search engines crawl their content. We believe it’s time for the web and AI communities to explore additional machine-readable means for web publisher choice and control for emerging AI and research use cases.


Prompt-Beispiele, vorgeschlagene Antworten, mehrere Dateien hochladen:

ChatGPT Update für bessere Experience

© Jonathan Kemper - Unsplash, OpenAI-Logo, Text zu ChatGPT, pinkfarben, auf Laptop Screen, schwarz
© Jonathan Kemper – Unsplash

Kommentare aus der Community

Sammy am 21.08.2023 um 09:37 Uhr

Eine ziemlich sinnlose Sache. Die Büchse der Pandora ist geöffnet. Wer sich von den Inhalten anderer Webseiten inspirieren lassen möchte wird dieses auch weiter können. Copy & Paste ist hier die Schlüsseltechnologie und die Code Interpreter Funktion mit File Upload von ChatGPT eine perfekte Ergänzung. Man riskiert sogar durch eine Aussperrung des Bots, dass man nicht mehr als Quelle genannt wird und verschenkt eine Linkmöglichkeit.

Antworten
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*