Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
KI-Training in der Grauzone: OpenAI soll YouTube-Videos genutzt haben

KI-Training in der Grauzone: OpenAI soll YouTube-Videos genutzt haben

Swantje Schemmerling | 08.04.24

Die Nutzung von YouTube-Videos durch KI-Unternehmen wie OpenAI wirft komplexe Fragen hinsichtlich Urheber:innenrechten und ethischen Standards auf und zeigt die Notwendigkeit klarer rechtlicher Rahmenbedingungen für das Training von KI-Modellen.

Die fortschreitende Entwicklung Künstlicher Intelligenz hängt entscheidend von der Verfügbarkeit und Qualität der Trainings-Daten ab. Die KI-Modelle werden besser, je mehr Daten sie bekommen. Doch die Methoden, mit denen AI-Unternehmen wie OpenAI Trainings-Daten sammeln, werfen einige Fragen auf. Besonders brisant ist die Nutzung von YouTube-Videos ohne klare Zustimmung.

Die New York Times hat in einem aktuellen Artikel einige Beispiele aufgezeigt, wie die KI-Unternehmen mit diesem Problem umgehen. Es überrascht nicht, dass sie dabei Dinge tun, die in die unklare Grauzone des KI-Urheber:innenrechts fallen. Dies berichtet die New York Times unter Berufung auf mehrere Quellen bei OpenAI, Google und aus dem Umfeld der Unternehmen. Laut des Berichts gingen OpenAI Ende 2021 die Trainigs-Daten aus und das Unternehmen suchte neue Wege, um an neue Daten zu kommen. Mittels eines Audiotranskriptionsmodells namens Whisper soll OpenAI rund eine Million Stunden Video von YouTube für die Nutzung als Trainings-Daten für GPT-4, das fortschrittlichste große Sprachmodell des Unternehmens, aufbereitet haben. Dies geschah laut Bericht ohne vorherige Absprache mit YouTube oder den Videoersteller:innen. OpenAI selbst wusste demnach um die rechtlich fragwürdige Situation, hielt es aber laut der New York Times für eine faire Nutzung.

YouTube-Videos auch für die Entwicklung von OpenAIs Sora genutzt

Nicht nur GPT-4, sondern auch Sora, OpenAIs Tool zur Videogenerierung, hat von YouTube-Videos gelernt. Sora kann deshalb qualitativ hochwertige Videos produzieren, weil es auf umstrittenen Trainings-Methoden basiert. Mira Murati, Chief Technology Officer bei OpenAI, enthüllte in einem Interview, dass für Sora öffentlich verfügbare Videos als Trainings-Material verwendet wurden. YouTubes CEO Neal Mohan bestätigte zwar nicht direkt die Nutzung der Plattforminhalte für Sora, betonte aber die Problematik eines solchen Vorgehens. Die Nutzungsbedingungen von YouTube verbieten ausdrücklich das unerlaubte Scraping oder Herunterladen von Inhalten. Ein Verstoß könnte ernsthafte Konsequenzen für KI-Unternehmen nach sich ziehen.

Interessanterweise hat YouTube-Mutterkonzern Google trotz Kenntnis der Praktiken von OpenAI, nicht interveniert. Die New York Times berichtet, dass Google ähnliche Inhalte für das Training seiner eigenen KI-Modelle genutzt haben könnte, was die Zurückhaltung erklären würde. Diese gegenseitige Duldung von Praktiken, die potentiell die Rechte von Content-Ersteller:innen verletzen, markiert ein komplexes Problemfeld bei der Beschaffung von Trainings-Daten für KI-Modelle. Die Debatte um die Nutzung urheber:innenrechtlich geschützter Inhalte für KI-Training verschärft sich zusehends. Mit über 10.000 Beschwerden, die beim United States Copyright Office eingereicht wurden, stehen Unternehmen wie OpenAI und Meta vor rechtlichen Herausforderungen. Laut der Times diskutiert der Konzern Meta intern offen über die Nutzung urheber:innenrechtlich geschützter Werke, während es nach Möglichkeiten sucht, mit OpenAI Schritt zu halten.

AI Act soll für mehr Klarheit sorgen – jedoch nur in der EU

Die Methoden, mit denen OpenAI und andere KI-Unternehmen Daten für das Training der KI-Modelle sammeln, sind immer wieder Gegenstand von Diskussionen und rechtlichen Auseinandersetzungen. So haben die New York Times und weitere Organisationen Klage gegen das Unternehmen erhoben, weil dieses ohne Erlaubnis urheber:innenrechtlich geschützte Inhalte genutzt haben soll. Angesichts zunehmender gesetzlicher Einschränkungen, wie sie beispielsweise durch den AI Act der EU eingeführt wurden, gehen nun einige Unternehmen dazu über, klare Vereinbarungen über die Nutzung von Datenquellen zu treffen. Laut AI Act ist es nun erforderlich, die Grundlagen für das Training von KI-Modellen offenzulegen. Angesichts dieser zunehmenden rechtlichen Herausforderungen, beginnen einige Unternehmen mit Lizenzverträgen an Daten zu gelangen. Ein aktuelles Beispiel ist Reddit, das vor seinem Börsengang ein Abkommen mit Google geschlossen hat. Dabei sollen die Daten der Reddit-Nutzer:innen für 60 Millionen US-Dollar im Jahr Google zur Verfügung gestellt werden.

Bei der Debatte über den Einsatz von YouTube-Videos für das Training von KI-Modellen bleibt unklar, ob auch andere Videoportale für ähnliche Zwecke herangezogen wurden. Die anhaltenden Diskussionen über die Verwendung von Material von Plattformen wie YouTube unterstreichen den akuten Bedarf an eindeutigen Regelungen und ethischen Richtlinien in der Branche.


OpenAI lässt mehr Finetuning zu und erweitert das Custom Model Program

© Mariia Shalabaieva – Unsplash Duncan.Hull (eigenes Werk) – Wikipedia.de, CC BY-SA 3.0 (Änderungen wurden vorgenommen via Canva)

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*