Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Unternehmensnews
Aus Sorge: Meta hält multilinguale Sprach-KI unter Verschluss

Aus Sorge: Meta hält multilinguale Sprach-KI unter Verschluss

Larissa Ceccio | 20.06.23

Meta hat das erste generative mehrsprachige Text-to-Speech-KI-Modell entwickelt. Doch die Gefahren bei einer frühzeitigen Veröffentlichung seien zu groß, erklärte der Konzern. Von uns erhältst du den Überblick über die Funktionen und nähere Informationen zum verzögerten Launch aus Sorge vor Betrug, Missbrauch und Manipulation.

Voicebox ist laut Meta die bisher „vielseitigste generative Sprach-KI“ und ein „Durchbruch“. Das Modell kann Sprache in sechs Sprachen synthetisieren sowie Rauschunterdrückung, Inhaltsbearbeitung, Stilkonvertierung und verschiedene Sample-Generierung durchführen. Weil es so vielfältig einsetzbar ist, ist es laut des Konzerns jedoch sehr anfällig für missbräuchliche Aktionen, weswegen Meta die Voicebox noch nicht auf den Markt bringt. Stattdessen liefert der Facebook- und Instagram-Konzern zunächst nur einen ersten Überblick zur Funktionsweise der Sprach-KI und Beispiele dafür, was sie alles kann.

Funktionsweise und Gefahren der Meta Voicebox

Das generative KI-Modell Meta Voicebox kann Audiodateien editieren, samplen und verändern. Mithilfe des Modells können Creator Audiospuren für Videos einfach bearbeiten. Sehbehinderte Menschen erhalten außerdem die Möglichkeit, Textnachrichten von Freund:innen mit ihrer Stimme zu hören und Anwender:innen können jede Fremdsprache mit ihrer eigenen Stimme sprechen. Das Besondere an der Meta Voicebox ist aber, dass sie nicht nur auf eine Aufgabe trainiert wurde, sondern multitasking-fähig ist. Im Gegensatz zu autoregressiven Modellen zur Audiogenerierung kann Voicebox zudem jeden Teil eines bestimmten Samples ändern, nicht nur das Ende eines Audioclips, der dem KI-Modell zugewiesen wurde. Außerdem reichen der Sprach-KI zwei Sekunden lange Aufnahmen, um danach Text in „Audio-Style“ zu verwandeln – was konkret „Audio-Style“ bedeutet, erklärt der Meta jedoch nicht. Die Sprache klingt, laut Aussagen des Konzerns, zudem besonders natürlich, also nicht wie eine Computerstimme.

Voicebox übertrifft laut Meta das Sprachmodell Vall-E von Microsoft bei Zero Shot Text-to-Speech in Bezug auf die Verständlichkeit (5,9 Prozent zu 1,9 Prozent Wortfehlerraten) und Audioähnlichkeit (0,580 zu 0,681), während Voicebox außerdem bis zu 20-mal schneller ist. Vall-E kann laut Microsoft mit einer drei Sekunden langen Originaldatei eine:n Sprecher:in nachahmen. Vor dem Hintergrund der potenziellen Gefahren erklärt Meta:

There are many exciting use cases for generative speech models, but because of the potential risks of misuse, we are not making the Voicebox model or code publicly available at this time.

In einem weiteren Artikel erklärt Meta detailliert, wie der Konzern einen Klassifikator entwickelt hat, der zwischen authentischer Sprache und mit Voicebox generiertem Audio unterscheiden kann, um diese möglichen zukünftigen Risiken zu mindern.


Meta steht vor dem Roll-out diverser KI-Features. Dazu zählen Chatbots auf Instagram und AI Sticker im Messenger. Intern können Teams bereits auf den KI-Chatbot Metamate zugreifen, der verschiedene KI-Optionen zusammenbringt. Und für die Zukunft plant Meta sogar AI Personas für User.

Metas KI-Chatbot Metamate und Zuckerbergs AI-Vision

Meta-Leuchtschrift
Meta-Leuchtschrift, © Penfer – Unsplash


Funktionen im Fokus: Meta Voicebox verfügt über Audioradiergummi und Echtzeit-Text-to-Audio-Translator

Die Meta Voicebox funktioniert in sechs Sprachen, darunter Deutsch, und kann zudem übersetzen – von Text zu Audio in einer anderen Sprache. Zwar können andere KI-Sprachmodelle auch übersetzen, der gleichzeitige Weg von Audio zu Text zu Audio ist im Fall von Meta innovativ. Meta hofft, dass die Funktion künftig Menschen eine einfach und schnelle Kommunikation untereinander ermöglicht, die nicht die gleiche Sprache sprechen. Im Blog-Beitrag von Meta heißt es:

Voicebox represents an important step forward in generative AI research. Other scalable generative AI models with task generalization capabilities have sparked excitement about potential applications across tasks when it comes to text, image, and video generation. We hope to see a similar impact for speech in the future. We look forward to continuing our exploration in the audio domain and seeing how other researchers build on our work.

Zur Präsentation der laut Meta außerordentlichen Funktionalität der Meta Voicebox liefert der Konzern eine Aufnahme, bei der das Bellen eines Hundes aus der Datei entfernt wird, ohne dass die restliche Aufnahme verschlechtert wird. In dem Fall wird die Passage künstlich neu geschaffen, ohne dass der Hund zu hören ist. Meta nennt dieses Feature Audioradiergummi. Solch eine Noise-Cancelling-Funktion gibt es jedoch bereits bei anderen Diensten, etwa bei Microsoft.

Meta erklärt in der Ankündigung auch, dass Voicebox auf einem Flow-Matching-Modell basiert, einem nicht-autoregressivem generativen Modell, das non-deterministic Mapping zwischen Text und Sprache ermöglicht. Gemeint ist, dass die Trainingsdaten nicht umfänglich gelabelt sein müssen, sondern eine größere Menge verschiedener Daten mit weniger Aufwand zum Training herangezogen werden kann. 50.000 Stunden gesprochener Sprache und Transkripte zu Audiobüchern von öffentlichen Domains sind in Voicebox geflossen.


Der Digital Bash EXTREME – AI Marketing Bootcamp geht in die zweite Runde! Sichere dir jetzt dein Ticket für den 29. Juni.

Entdecke die neuesten Technologien für erfolgreiches KI-Marketing:
Digital Bash EXTREME – AI Marketing Bootcamp

Digital Bash EXTREME – AI Marketing Bootcamp
Digital Bash EXTREME – AI Marketing Bootcamp

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*