Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Microsofts neue Stimmen-KI VALL-E: Einsatzpotenzial für Podcasts und Videokreation

Microsofts neue Stimmen-KI VALL-E: Einsatzpotenzial für Podcasts und Videokreation

Larissa Ceccio | 16.01.23

Die Microsoft-KI VALL-E benötigt für die Sprachsynthese nur drei Sekunden Audioinput. Doch die Potenziale gehen nicht ohne Risiken einher, deren sich die Entwickler:innen jedoch bewusst sind.

Microsoft kündigte kürzlich das Text-to-Speech-KI-Modell VALL-E an, das die Stimme einer Person genau simulieren und dabei sowohl den emotionalen Ton als auch die akustische Umgebung beachten kann. Im Marketing-Kontext bieten sich damit vielerlei spannende, kreative und effiziente Möglichkeiten. Microsofts KI ist jedoch bei weitem nicht die erste Sprachsynthese, die auf natürlicher Sprache basiert – neu an VALL-E ist aber der auffällig kurze benötigte Audio-Input.

Mit VALL-E läutet Microsoft in Sachen KI-Entwicklungen eine weitere Stufe ein: Erst vor Kurzem wurde bekannt, dass der Tech-Konzern zehn Milliarden US-Dollar in das ChatGPT-Unternehmen investieren möchte. Zuvor wurde berichtet, dass Microsoft das derzeit hochpopuläre KI-Tool ChatGPT in die eigene Suchmaschine Bing integrieren könnte, um Google mehr Konkurrenz zu machen. Außerdem möchte der Tech-Konzern, der bereits 2019 eine Milliarde US-Dollar in OpenAI investiert hat, das Tool auch in Office-Anwendungen wie Word und sogar Outlook integrieren.


Die Sprach-KI ChatGPT ist seit Wochen in aller Munde und lässt sich für diverse Marketing- und Business-Zwecke einsetzen. Wir zeigen dir in unserem Artikel auf OnlineMarketing.de, wie du die KI für deine SEO-Aktivitäten nutzen kannst. Außerdem haben wir mit Michael Witzenleiter von Conversion Maker über das leistungsstärkste KI-Sprachsystem aller Zeiten gesprochen. Seine Insights und Aussagen kannst du in einem weiteren Artikel auf OnlineMarketing.de nachlesen.

© OpenAI

Das kann Microsofts VALL-E, das KI-Tool, das auf Metas EnCodec aufbaut

Das Text-to-Speech-KI-Modell von Microsoft kann die Stimme einer Person genau simulieren, wenn Anwender:innen ihr ein drei Sekunden langes Audio-Sample geben. Sobald das Tool eine bestimmte Stimme gelernt hat, kann es die Stimme jeder Person, die etwas sagt, synthetisieren – und zwar auf eine Weise, die den emotionalen Ton der:s Sprecher:in zu bewahren versucht.

Microsoft nennt VALL-E ein neuronales Codec-Sprachmodell. Es baut auf einer Technologie namens EnCodec auf, die Meta im Oktober 2022 angekündigt hatte. Im Gegensatz zu anderen Text-zu-Sprache-Methoden, die Sprache normalerweise durch Manipulation von Wellenformen synthetisieren, generiert VALL-E diskrete Audio-Codec-Codes aus Text und akustischen Aufforderungen. Das System analysiert im Grunde, wie eine Person klingt, zerlegt diese Informationen dank EnCodec in diskrete Komponenten (sogenannte Tokens) und verwendet Trainingsdaten, um die gesammelten Informationen darüber abzugleichen, wie diese Stimme klingen würde, wenn sie andere Sätze außerhalb der drei sprechen würde – oder wie Microsoft es in der VALL-E-Ankündigung ausdrückt:

To synthesize personalized speech (e.g., zero-shot TTS), VALL-E generates the corresponding acoustic tokens conditioned on the acoustic tokens of the 3-second enrolled recording and the phoneme prompt, which constrain the speaker and content information respectively. Finally, the generated acoustic tokens are used to synthesize the final waveform with the corresponding neural codec decoder.

Um personalisierte Sprache zu synthetisieren (zum Beispiel Zero-Shot-TTS), erzeugt VALL-E die entsprechenden akustischen Token, die auf den akustischen Token der drei Sekunden registrierten Aufzeichnung und dem Phonem Prompt beruhen, die die Sprecher:innen- beziehungsweise Inhaltsinformationen einschränken. Schließlich werden die erzeugten akustischen Token verwendet, um die endgültige Wellenform mit dem entsprechenden neuronalen Codec Decoder zu synthetisieren.

Microsoft hat die Sprachsynthesefähigkeiten von VALL-E auf einer von Meta konfigurierten Audiobibliothek namens LibriLight trainiert. Diese enthält 60.000 Stunden englischsprachige Sprache von mehr als 7.000 Sprecher:innen, die größtenteils aus gemeinfreien Hörbüchern von LibriVox stammen. Damit VALL-E ein gutes Ergebnis erzielen kann, muss die Stimme im drei Sekunden langen Sample eng mit einer Stimme in den Trainingsdaten übereinstimmen. Der KI-gestützte Audio-Codec von Meta verspricht eine zehnfache Komprimierung gegenüber MP3. Auch die Sprachbearbeitung, bei der eine Aufnahme einer Person bearbeitet und von einem Texttranskript geändert werden könnte, und die Erstellung von Audioinhalten in Kombination mit anderen generativen KI-Modellen wie GPT-3 könnte möglich sein.

Text to Speech für Audio-Marketing-Zwecke: VALL-E erzeugt menschliche Stimmen

VALL-E könnte beispielsweise bei konventionellen Text-to-Speech-Aufgaben, aber auch bei Reden öffentlicher Personen, bei denen man mithilfe der KI nachträglich das gesprochene Wort ändern könnte, zum Einsatz kommen. Das erklärte Ziel der Microsoft-Entwickler:innen ist es, hochwertige Text-to-Speech-Anwendungen möglich zu machen – für Audio-Marketer und Podcaster würden sich somit vielfältige neue Möglichkeiten ergeben.

Podcasts zu vielerlei Themen, ob allgemein oder spezifisch, fünf Minuten oder vier Stunden lang, unterhaltend oder informierend etc. erfreuen sich großer Beliebtheit. YouTube, Apple Podcast und Spotify sind hier die relevantesten Plattformen. Mitte vergangenen Jahres entwickelten Spotify und IAS vor diesem Hintergrund eine Brand-Safety-Lösung für Podcast Advertising. Das Text-to-Speech-KI-Modell VALL-E könnte die Podcast-Produktion revolutionieren. So könnten etwa Podcasts oder Hörbücher mit den Originalstimmen der Autor:innen eingesprochen werden, ohne dass diese physisch im Studio sein müssten. Auch im Hinblick auf den Grad der Professionalisierung und der Perfektionierung dürfte ein solches System Vorteile bringen.

Weiterhin würden Marketer mit VALL-E auch neue Möglichkeiten für Live Streams, Audiowerbung und Overlays erhalten. Allerdings eröffnet eine solche Technologie auch Missbrauchspotenziale. Denkbar ist, dass VALL-E dazu verwendet werden könnte, einen Menschen etwas sagen zu lassen, das dieser nie gesagt hat – mit einer täuschend echt nachgeahmten Stimme. 


QuickVid ist die neueste Demonstration dessen, was mit heutiger KI möglich ist – und der Herausforderungen, die eine solche Entwicklung mit sich bringt. Die neue Website kombiniert gleich mehrere generative KI-Systeme in einem einzigen Tool zur automatischen Erstellung von Kurzvideos für Plattformen wie YouTube, Instagram, TikTok und Snapchat. Ein einziges Wort genügt QuickVid, um die KI-Maschinerie ins Rollen zu bringen. Klick auf unseren Artikel auf OnlineMarketing.de, um mehr über QuickVid zu erfahren.

Generative KI für Kurzvideos – QuickVid macht es möglich!

Videoaufnahme mit dem Smartphone, © Joey Huang – Unsplash

Deep Fakes, Pishing-Angriffe und mehr: Missbrauchspotenzial von VALL-E

VALL-E ist mit verschiedenen Risiken verbunden, darunter das Spoofing der Spracherkennung oder die Identität bestimmter Sprecher:innen und Prominenter, was zu einer schnelleren Verbreitung von Fehlinformationen führen könnte. VALL-E könnte einige dazu verleiten, Phishing-Angriffe mit echter Stimme durchzuführen oder gefälschte Nachrichten online zu verbreiten, etwa über ein YouTube-Video oder einen Podcast. Zum Beispiel könnten Menschen VALL-E verwenden, um Anrufe für betrügerische Zwecke echt klingen zu lassen oder Politiker:innen und Menschen aus dem öffentlichen Leben können imitiert werden, sodass Deep Fakes begünstigt würden. Auch Anwendungen, die Sprachbefehle oder Sprachpasswörter benötigen, könnten durch VALL-E von nicht autorisierten Personen genutzt beziehungsweise geknackt werden.

Microsoft hat wahrscheinlich aufgrund des Missbrauchspotenzials von VALL-E keinen öffentlichen Code für andere zum Experimentieren bereitgestellt. Wir von OnlineMarketing.de konnten somit keine eigenen Tests durchführen. Die Microsoft-Entwickler:innen scheinen sich somit des potenziellen Schadens bewusst zu sein, den diese Technologie mit sich bringen könnte. Zum Abschluss des Papiers schreiben sie:

Since VALL-E could synthesize speech that maintains speaker identity, it may carry potential risks in misuse of the model, such as spoofing voice identification or impersonating a specific speaker. To mitigate such risks, it is possible to build a detection model to discriminate whether an audio clip was synthesized by VALL-E. We will also put Microsoft AI Principles into practice when further developing the models.

Audiobeispiele von VALL-E frei verfügbar

Auf der VALL-E- Beispielwebsite stellt Microsoft Dutzende von Audiobeispielen des KI-Modells in Aktion bereit. Unter den Samples ist der Speaker Prompt, das drei Sekunden lange Audio, das VALL-E zur Verfügung gestellt wird und das es imitieren muss. Die Ground Truth ist eine bereits vorhandene Aufnahme einer:s Sprecher:in, die:der zu Vergleichszwecken einen bestimmten Satz sagt. Die Baseline ist ein Synthesebeispiel, das durch ein herkömmliches Text-zu-Sprache-Syntheseverfahren bereitgestellt wird, und das VALL-E-Muster ist die Ausgabe des VALL-E-Modells.

Ein Blockdiagramm von VALL-E, bereitgestellt von Microsoft-Entwickler:innen, © VALL-E

Bei der Verwendung von VALL-E zur Generierung dieser Ergebnisse gaben die Forscher nur das drei Sekunden lange Speaker Prompt Sample und eine Textzeichenfolge (was die Stimme sagen sollte) in VALL-E ein. Vergleicht man die Ground Truth-Probe mit der VALL-E-Probe, fällt auf, dass diese beiden Proben in einigen Fällen sehr nahe beieinander liegen. Viele VALL-E-Ergebnisse scheinen computergeneriert zu sein, andere könnten möglicherweise mit der Sprache eines Menschen verwechselt werden, was das Ziel des Modells ist.

LibriSpeech Samples auf der VALL-E Website, © VALL-E

Neben der Beibehaltung des Stimm-Timbres und des emotionalen Tons von Sprecher:innen kann VALL-E auch die akustische Umgebung des Sample-Audios imitieren. Wenn das Sample beispielsweise von einem Telefongespräch stammt, simuliert der Audioausgang die akustischen und Frequenzeigenschaften eines Telefongesprächs in der synthetisierten Ausgabe. Die Beispiele von Microsoft zeigen, dass VALL-E Variationen im Stimmton erzeugen kann, indem das System den zufälligen Startwert ändert, der im Generierungsprozess verwendet wird.

Kommentare aus der Community

Pierre Karanatsios am 16.01.2023 um 18:08 Uhr

Ab wann kann die Allgemeinheit das Tool nutzen?

Antworten
Niklas Lewanczik am 17.01.2023 um 08:48 Uhr

Hallo Pierre,

leider hat Microsoft noch kein konkretes Datum angegeben, ab dem das Tool der Allgemeinheit zugänglich sein wird. Sobald das der Fall ist, kannst du darüber bei OnlineMarketing.de etwas lesen.

Beste Grüße

Antworten
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*