AI Search: Verstoßen OpenAI, Google und Co. gegen Copyright?

Nachrichtenverleger:innen sind besorgt, dass KI-Antworten den Suchverkehr nach Originalinhalten ersetzen und somit zu geringeren Einnahmen, Arbeitsplatzverlusten und anderen Schäden führen könnten.

Die News/Media Alliance, ein Zusammenschluss von über 2000 Verlagen in den USA und Kanada, hat vor Kurzem ein Whitepaper beim U.S. Copyright Office eingereicht, das eine umfassende Stellungnahme zur Verwendung von Verlagsinhalten in Bezug auf generative KI-Technologien darlegt. In diesem Dokument wird die weitverbreitete, nicht autorisierte Nutzung von Verlagsinhalten durch KI-Entwickler:innen aufgezeigt, wobei die potenziellen Auswirkungen auf die Nachhaltigkeit und Verfügbarkeit hochwertiger Originalinhalte von Nachrichtenverlagen sowie die rechtlichen Konsequenzen dieser Nutzung thematisiert werden.

On Monday, the News/Media Alliance published a White Paper and a technical analysis and submitted comments to the @CopyrightOffice on the use of publisher content to power generative artificial intelligence technologies (#GAI). https://t.co/Zr05e7nZTS

— News/Media Alliance (@newsalliance) October 31, 2023

Die wichtigsten Ergebnisse der technische Analyse, die dem Whitepaper zugrunde liegt, sind:

Die KI-Entwickler:innen haben Inhalte aus Nachrichten, Zeitschriften und digitalen Medien kopiert und verwendet, um Large Language Models (LLMs) zu trainieren.
Beliebte kuratierte Datensätze, auf die LLMs zurückgreifen, neigen dazu, den Inhalt von Verlagen im Vergleich zur allgemeinen Sammlung von Inhalten aus dem Internet um das 5- bis 100-Fache stärker zu gewichten
Nachrichten und digitale Medien stehen in Googles C4-Trainingsset, das zur Entwicklung von generativen KI-gestützten Produkten wie Bard verwendet wurde, an dritter Stelle unter den Quellenkategorien. Tatsächlich sind die Hälfte der Top Ten Websites in diesem Datensatz Nachrichtenagenturen.
Darüber hinaus kopieren und verwenden LLMs Verlagsinhalte in ihren Ergebnissen, was darauf hinweist, dass diese Modelle den bedeutenden Inhalt der Trainingsdaten behalten und reproduzieren können.

Viele KI-Systeme großer Player setzen vielfach auf die Inhalte renommierter Publisher und greifen in rauen Mengen darauf zurück. Ob das jedoch im Einklang mit geltenden Copyright-Regularien geschieht, steht angesichts der Angaben der News/Media Alliance zur Debatte.

Alliance President & CEO Danielle Coffey erklärte:

The research and analysis we’ve conducted shows that AI companies and developers are not only engaging in unauthorized copying of our members’ content to train their products, but they are using it pervasively and to a greater extent than other sources. This shows they recognize our unique value, and yet most of these developers are not obtaining proper permissions through licensing agreements or compensating publishers for the use of this content. This diminishment of high-quality, human created content harms not only publishers but the sustainability of AI models themselves and the availability of reliable, trustworthy information.

Jede Website kann die Nutzung durch KI-Bots unterbinden

Unternehmen, insbesondere Verlage, haben die Möglichkeit, aktiv Maßnahmen zu ergreifen, um die Nutzung ihrer Inhalte durch KI-Bots und ähnliche Technologien zu unterbinden. Dies kann beispielsweise durch das Deaktivieren von Crawling-Funktionen geschehen, wie es Google und OpenAI für über robots.txt für ihre spezifischen Crawler anbieten.

Darüber hinaus können Unternehmen den Zugriff von KI-Systemen wie Bing Chat mithilfe der robot.txt-Datei blockieren. Auch Googles Bard kann mit der robot.txt-Datei blockiert werden. Es ist jedoch erwähnenswert, dass Google bereits an Alternativen zu robot.txt arbeitet, da diese Methode auf Texte und herkömmliche Inhalte abzielt und möglicherweise nicht ausreichend ist im Zeitalter der KI. Viele Unternehmen haben auf ihren Websites Crawling Bots schon blockiert, wie etwa die New York Times, die dem GPTBot von OpenAI das Übernehmen und Aggregieren auf der Website verbietet.

ChatGPT Prompting Hack:

Neue Ideen für Bilder, Videos und Thumbnails in Sekundenschnelle

Abstrakte Blase, erinnert an Kopf, hell vor Hintergrund mit vielen kastenförmigen Elementen — *© Google DeepMind – Unsplash*

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentar

_* Hiermit willige ich in die Verarbeitung meiner angegebenen personenbezogenen Daten für das Kommentieren des Beitrags der Onlinemarketing.de GmbH ein. Mir ist bekannt, dass ich meine Einwilligung jederzeit durch eine formlose E-Mail an info@onlinemarketing.de widerrufen kann. Durch den Widerruf der Einwilligung wird die Rechtmäßigkeit der Verarbeitung, die aufgrund der Einwilligung bis zum Widerruf erfolgt ist, nicht berührt. Weitere Informationen über den Umgang mit Ihren Daten finden Sie in unserer Datenschutzerklärung.

AI Search: Verstoßen OpenAI, Google und Co. gegen Copyright?

Jede Website kann die Nutzung durch KI-Bots unterbinden

ChatGPT Prompting Hack:

Neue Ideen für Bilder, Videos und Thumbnails in Sekundenschnelle

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Kommentare aus der Community

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Beliebte Kategorien

Nützlich

OnlineMarketing.de