Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
AI Search: Verstoßen OpenAI, Google und Co. gegen Copyright?

AI Search: Verstoßen OpenAI, Google und Co. gegen Copyright?

Swantje Schemmerling | 03.11.23

Nachrichtenverleger:innen sind besorgt, dass KI-Antworten den Suchverkehr nach Originalinhalten ersetzen und somit zu geringeren Einnahmen, Arbeitsplatzverlusten und anderen Schäden führen könnten.

Die News/Media Alliance, ein Zusammenschluss von über 2000 Verlagen in den USA und Kanada, hat vor Kurzem ein Whitepaper beim U.S. Copyright Office eingereicht, das eine umfassende Stellungnahme zur Verwendung von Verlagsinhalten in Bezug auf generative KI-Technologien darlegt. In diesem Dokument wird die weitverbreitete, nicht autorisierte Nutzung von Verlagsinhalten durch KI-Entwickler:innen aufgezeigt, wobei die potenziellen Auswirkungen auf die Nachhaltigkeit und Verfügbarkeit hochwertiger Originalinhalte von Nachrichtenverlagen sowie die rechtlichen Konsequenzen dieser Nutzung thematisiert werden.

Die wichtigsten Ergebnisse der technische Analyse, die dem Whitepaper zugrunde liegt, sind:

  • Die KI-Entwickler:innen haben Inhalte aus Nachrichten, Zeitschriften und digitalen Medien kopiert und verwendet, um Large Language Models (LLMs) zu trainieren.
  • Beliebte kuratierte Datensätze, auf die LLMs zurückgreifen, neigen dazu, den Inhalt von Verlagen im Vergleich zur allgemeinen Sammlung von Inhalten aus dem Internet um das 5- bis 100-Fache stärker zu gewichten
  • Nachrichten und digitale Medien stehen in Googles C4-Trainingsset, das zur Entwicklung von generativen KI-gestützten Produkten wie Bard verwendet wurde, an dritter Stelle unter den Quellenkategorien. Tatsächlich sind die Hälfte der Top Ten Websites in diesem Datensatz Nachrichtenagenturen.
  • Darüber hinaus kopieren und verwenden LLMs Verlagsinhalte in ihren Ergebnissen, was darauf hinweist, dass diese Modelle den bedeutenden Inhalt der Trainingsdaten behalten und reproduzieren können.

Viele KI-Systeme großer Player setzen vielfach auf die Inhalte renommierter Publisher und greifen in rauen Mengen darauf zurück. Ob das jedoch im Einklang mit geltenden Copyright-Regularien geschieht, steht angesichts der Angaben der News/Media Alliance zur Debatte.

Alliance President & CEO Danielle Coffey erklärte:

The research and analysis we’ve conducted shows that AI companies and developers are not only engaging in unauthorized copying of our members’ content to train their products, but they are using it pervasively and to a greater extent than other sources. This shows they recognize our unique value, and yet most of these developers are not obtaining proper permissions through licensing agreements or compensating publishers for the use of this content. This diminishment of high-quality, human created content harms not only publishers but the sustainability of AI models themselves and the availability of reliable, trustworthy information.

Jede Website kann die Nutzung durch KI-Bots unterbinden

Unternehmen, insbesondere Verlage, haben die Möglichkeit, aktiv Maßnahmen zu ergreifen, um die Nutzung ihrer Inhalte durch KI-Bots und ähnliche Technologien zu unterbinden. Dies kann beispielsweise durch das Deaktivieren von Crawling-Funktionen geschehen, wie es Google und OpenAI für über robots.txt für ihre spezifischen Crawler anbieten.

Darüber hinaus können Unternehmen den Zugriff von KI-Systemen wie Bing Chat mithilfe der robot.txt-Datei blockieren. Auch Googles Bard kann mit der robot.txt-Datei blockiert werden. Es ist jedoch erwähnenswert, dass Google bereits an Alternativen zu robot.txt arbeitet, da diese Methode auf Texte und herkömmliche Inhalte abzielt und möglicherweise nicht ausreichend ist im Zeitalter der KI. Viele Unternehmen haben auf ihren Websites Crawling Bots schon blockiert, wie etwa die New York Times, die dem GPTBot von OpenAI das Übernehmen und Aggregieren auf der Website verbietet.


ChatGPT Prompting Hack:

Neue Ideen für Bilder, Videos und Thumbnails in Sekundenschnelle

Abstrakte Blase, erinnert an Kopf, hell vor Hintergrund mit vielen kastenförmigen Elementen
© Google DeepMind – Unsplash

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*