Automattic, das Mutterunternehmen hinter der Plattform Tumblr und dem Web-Content-Managing-System WordPress, steht kurz davor, einen Deal mit den KI-Unternehmen OpenAI und Midjourney abzuschließen. Einem Bericht von 404 Media zufolge könnten Nutzer:innendaten – speziell Trainingsdaten, die aus den Beiträgen der User gewonnen werden – bald Teil eines Verkaufsvertrags sein. Dies wirft wichtige Fragen über Datenschutz und Nutzer:innenkontrolle auf.

Die Verhandlungen zwischen Automattic und den KI-Unternehmen zielen darauf ab, umfangreiche Datenmengen bereitzustellen, die zur Weiterentwicklung und Schulung von KI-Modellen genutzt werden sollen. Doch die Details dieses Deals und insbesondere, welche Daten einbezogen werden, bleiben unklar. 404 Media berichtet, dass ein internes Posting von Cyle Gage, einem Produktmanager bei Tumblr, darauf hindeute, dass Automattic ursprünglich bereit war, weit mehr als nur öffentliche Inhalte zu teilen, einschließlich sensibler Daten, die nicht für den Verkauf vorgesehen sein sollten. Zu den Daten gehören private Beiträge, gelöschte oder gesperrte Blogs, private Antworten und Inhalte von Premiumpartner:innen-Blogs. Es ist unklar, ob die Daten bereits an die KI-Unternehmen gesendet wurden.

Automattic beteuerte in einer öffentlichen Stellungnahme auf dem eigenen Blog, dass ausschließlich öffentliche Inhalte geteilt werden, von Seiten oder Usern, die sich nicht explizit dagegen entschieden haben. Trotzdem bleibt die Frage offen, inwieweit Nutzer:innen ihre Daten effektiv kontrollieren und schützen können. Als Reaktion auf die wachsende Besorgnis über den Umgang mit User-Daten kündigt Automattic die Einführung eines neuen Opt-out Tools an, das Nutzer:innen mehr Kontrolle darüber geben soll, ob ihre Daten für KI-Trainingszwecke verwendet werden dürfen. Doch die Effektivität dieses Tools und die Bereitschaft der KI-Unternehmen, die Anfragen zur Entfernung von Daten zu respektieren, bleibt abzuwarten. In der Stellungnahme wird darauf hingewiesen, dass die Web Crawler von KI-Unternehmen aufgrund gesetzlicher Bestimmungen derzeit nicht verpflichtet sind, sich an die Opt-out-Einstellungen der Nutzer:innen zu halten.

With that in mind, we’re doing a number of things at WordPress.com and Tumblr to give you more control over the content you’ve created. We currently block, by default, major AI platform crawlers—including ones from the biggest tech companies—and update our lists as new ones launch. We have a setting to discourage search engines from indexing a site on WordPress.com and Tumblr. This signals to search engines not to crawl that content or include it in search results. We have added similar settings to WordPress.com and Tumblr to discourage crawling by AI companies. If you already discourage search engine indexing, this is automatically enabled. We will share only public content that’s hosted on WordPress.com and Tumblr from sites that haven’t opted out. Currently, no law exists that requires crawlers to follow these preferences, though this may change soon with pending legislation in the European Union.