Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Microsoft VASA-1: Mit Bild und Audio zum sprechenden KI-Portrait

Microsoft VASA-1: Mit Bild und Audio zum sprechenden KI-Portrait

Niklas Lewanczik | 19.04.24

Mit VASA-1 von Microsoft können User ein simples Portraitfoto zum Leben erwecken und sprechen lassen. Die Anwendung führt zu Talking Faces, die auf LinkedIn und Co. als Creator-Avatare fungieren könnten.

Die Creator Economy und die Interaktion auf Business-Plattformen wie LinkedIn stehen vor einschneidenden Veränderungen. KI-Avatare oder mithilfe von KI erstellte Alter Egos könnten in Namen von Personen mit anderen Accounts interagieren. Vielleicht sehen wir in diesem Kontext bald mehr sogenannte Talking Faces. Diese lassen sich beispielsweise mit VASA-1 von Microsoft erstellen, einer Technologie, die der Tech-Konzern kürzlich im Research-Bereich vorgestellt hat.

Was kann VASA-1?

Der AI-Experte Alvaro Cintas fasst auf X zusammen, was die Technologie – deren Buchstaben für Visual Affective Skills (VAS) und Audio (A) stehen – zu bieten hat. Sie kann aus einer Audioeingabe, gepaart mit einem Foto einer Person ein Talking Face erstellen.

Eine Reihe von Beispielen liefern die Autor:innen von Microsoft Research im Blog-Beitrag zum Projekt.

Die Visualisierung der Bilder als animierte Person setzt auf holistische Facial Dynamics, wie Microsoft sie nennt. Das heißt, Mimik und Gestik werden realitätsgetreu integriert und an den Audio-Input angepasst. Die KI im Hintergrund stellt auf diese Weise multimodal eine simpel generierte Option bereit, um mit einem dynamischen Visual am Puls der Zeit mit Dritten zu kommunizieren. Das Team erklärt:

[…] Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512×512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.

Noch ist die Funktion nicht für die Öffentlichkeit verfügbar. Microsoft gibt zudem an, dass für die Demonstration nur per DALL-E 3 generierte Bilder genutzt und keine echten Personen imitiert wurden. Das Modell soll erst öffentlich gemacht werden, wenn Microsoft die Sicherheit der Nutzung gewährleisten kann. Ob es möglich ist, illegitime Nutzungen solcher Modelle auszuschließen, ist jedoch fraglich.

AI hilft Creatorn, Recruitern und Co.

Neben Microsoft stellt beispielsweise Meta schon Optionen bereit, um KI-basierte Influencer Chatbots zu kreieren, die an der Stelle der Creator mit Fans und Followern interagieren und eine Effizienzsteigerung ermöglichen könnten. Während das Potentiale für Social Media Manager und beispielweise auf LinkedIn auch für Recruiter oder jene, die einfach die Interaktion mit anderen Konten und Personen aufrechterhalten möchten, eröffnet, stellt sich die Farge nach der Authentizität solcher Kommunikationsprozesse.

Langfristig könnten Talking Faces aber auch auf Websites und in Profilen als jederzeit ansprechbarer Visual-Avatar zur Verfügung stehen und womöglich die UX verbessern. Die KI-Technologie hat noch viele Updates in petto. An Entwicklungen wie der Kombination von Audio und Visuals arbeiten derweil viele andere Tech-Unternehmen, von Pika Labs über OpenAI bis hin zu Adobe.


Adobe:

Großes AI Update für Premiere Pro

– bald auch mit OpenAI und Runway Features?

© Emily Bernal - Unsplash, Bildschirm mit abstrakter bunter Grafik, dunkler Raum, leuchtende Lampe, kleiner Screen mit Adobe-Icons für Dienste
© Emily Bernal – Unsplash

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*