Cases
Meta soll Millionen Quellen fürs KI-Training genutzt haben – von Getty bis Pornoseiten

Meta soll Millionen Quellen fürs KI-Training genutzt haben – von Getty bis Pornoseiten

Larissa Ceccio | 13.08.25

Eine durchgesickerte Liste soll zeigen, dass Meta Daten von Millionen Websites für das Training von KI-Modellen gesammelt hat – von großen Marken bis zu pornografischen Inhalten. Der Konzern weist die Vorwürfe zurück.

Der Tech- und KI-Player Meta will die leistungsfähigsten AI-Modelle der Welt bauen. Dafür investiert der Konzern nicht nur zweistellige Milliardenbeträge in Rechenzentren und Personal – er greift laut einer aktuellen Recherche auch auf Inhalte von Millionen Websites zurück. Eine durchgesickerte Liste, die Drop Site News vorliegt, und die du hier herunterladen kannst, zeigt: Rund sechs Millionen Domains sollen für Metas KI-Trainingsdaten erfasst worden sein, darunter etwa 100.000 der meistbesuchten Adressen im Netz.

Das Spektrum reicht von bekannten Medienmarken wie Getty Images und Shopify bis zu Nischenforen, Bildungsportalen und Websites mit expliziten Inhalten. Brisant ist der Vorwurf der Drop Site News-Journalist:innen Murtaza Hussain, Ryan Grim und Waqas Ahmed: Metas interner Crawler „Spidermate“ habe gezielt technische Schutzmaßnahmen wie robots.txt umgangen, die automatisiertes Auslesen verhindern sollen. Das ist in den USA zwar unethisch, aber nicht zwingend verboten. Der Meta-Sprecher Andy Stone reagierte auf Threads mit einer klaren Zurückweisung und bezeichnete die Liste als „nicht echt“.

Vor wenigen Wochen berichteten wir über Metas Pläne, Nutzungsdaten von EU-Usern standardmäßig für das KI-Training einzusetzen – mit Opt-out-Option. Den vollständigen Artikel kannst du auf OnlineMarketing.de lesen.


Frist abgelaufen:
Meta nutzt jetzt auch deine Daten für KI-Training

Meta-Schriftzug neon, pinkfarben,
© Penfer – Unsplash


So soll Meta an die Daten gekommen sein

Laut den Recherchen stammt ein Großteil der Adressen aus Content Delivery Networks (CDNs), die Inhalte zwischenspeichern. Das ermöglicht es Metas Crawlern, wiederholt aktualisierte Daten zu laden, selbst wenn sie auf der Ursprungsseite gelöscht wurden. Ehemalige Mitarbeitende berichten, dass so ein stetiger Strom an Texten, Bildern und Videos in Metas interne Datenbanken gelangt sei.

In der geleakten Liste tauchen auch Domains auf, die hochsensibles oder urheber:innenrechtlich geschütztes Material enthalten – bis hin zu Inhalten, die potenziell illegal sind. Die vollständige Liste, die Drop Site News nach eigenen Angaben aus einer internen Meta-Datenbank extrahieren konnte, wurde aus Quellenschutzgründen teilweise anonymisiert.

Auch einer der bekanntesten Social-Media-Experten, Matt Navarra, griff den Leak auf und machte deutlich, dass laut den Quellen sowohl Inhalte von Getty Images als auch von extremen Pornoseiten betroffen sein könnten. Wenn eine einflussreiche Branchenstimme wie Navarra das Thema öffentlich adressiert, verschiebt sich die Diskussion aus der Nische investigativer Medien ins Zentrum der digitalen Fachwelt – und der Druck auf Meta, zu reagieren, wächst erheblich.

Auf Threads ansehen

Rechtliche Grauzone mit großem Risiko

Das Training von KI mit fremden Inhalten sorgt seit Jahren für juristische Auseinandersetzungen. In den USA klagten bereits mehrere Autor:innen und Verlage gegen große KI-Player. Eine Sammelklage prominenter Schriftsteller:innen wie Sarah Silverman und Ta-Nehisi Coates gegen Meta wurde im Juni 2025 zwar abgewiesen – jedoch nur, weil das Gericht die vorgelegten Beweise als unzureichend einstufte. Richter Vince Chhabria stellte klar, dass das „dramatische Untergraben“ der Märkte für urheber:innenrechtlich geschützte Werke durch KI-Training ein reales Risiko sei.

Eine Untersuchung des Stanford Internet Observatory aus dem Dezember 2023, über die The Guardian berichtete, ergab, dass der offene LAION-5B-Datensatz, der unter anderem für das Training von Stable Diffusion genutzt wurde, über 3 200 Bilder mit mutmaßlicher sexueller Gewalt gegen Minderjährige enthielt – davon wurden etwa 1 000 extern validiert. Der Studienautor David Thiel, Chief Technologist am Stanford Internet Observatory, warnte gegenüber der Associated Press, dass fehlende Transparenz bei Trainingsdaten „eine ganze Reihe von Rechts- und Sicherheitsproblemen“ aufwerfen könne.

Teil eines milliardenschweren KI-Wettrüstens

Meta steckt aktuell bis zu 72 Milliarden US-Dollar pro Jahr in den Ausbau der eigenen Infrastruktur und in KI-Projekte. Laut Reuters fließt der Großteil in den Aufbau leistungsstarker Rechenzentren, die die KI-Entwicklung beschleunigen sollen. Zugleich hat der Konzern hochkarätige KI-Forschende von Wettbewerber:innen wie OpenAI abgeworben. Reuters berichtete im Juni 2025, dass drei führende Expert:innen zu Metas „Superintelligence“-Einheit wechselten – teils mit außergewöhnlich hohen Bonuszahlungen.

Die geleakten Daten treffen Meta in einer sensiblen Phase: Mit LLaMA 4 und weiteren Modellen will der Konzern die eigene Position im KI-Markt ausbauen. Gleichzeitig verweigerte Meta im Juli 2025 die Unterzeichnung des EU-Verhaltenskodex für verantwortungsvolle KI mit der Begründung, die Vorgaben erzeugten „rechtliche Unsicherheit“ für Entwickler:innen.

Konsequenzen für Publisher und Creator

Für Publisher und Creator steht viel auf dem Spiel. Die nicht autorisierte Nutzung ihrer Inhalte kann Reichweite und Erlöse gefährden und das Vertrauen in Plattformen weiter schwächen. Ken Mickles von der Digitalrechtsorganisation Fight for the Future warnt, dass Unternehmen wie Meta „faktisch Macht über das gesamte Internet“ gewinnen könnten, wenn sie ungehindert Inhalte scrapen.

Wie stark die geleakten Inhalte Metas Modelle tatsächlich prägen, bleibt unklar – Meta selbst macht dazu keine Angaben. Fest steht: Die Debatte um Urheber:innenrecht, Datennutzung und KI-Training wird mit diesem Leak weiter an Schärfe gewinnen.


Meta stellt die persönliche Superintelligenz vor
– KI erhöht schon Nutzungszeit auf Instagram

Mark Zuckerberg vor Meta-Logo, heller Hintergrund
© Meta, Dima Solomin – Unsplash

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*