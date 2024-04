Eine Reihe von Beispielen liefern die Autor:innen von Microsoft Research im Blog-Beitrag zum Projekt.

Die Visualisierung der Bilder als animierte Person setzt auf holistische Facial Dynamics, wie Microsoft sie nennt. Das heißt, Mimik und Gestik werden realitätsgetreu integriert und an den Audio-Input angepasst. Die KI im Hintergrund stellt auf diese Weise multimodal eine simpel generierte Option bereit, um mit einem dynamischen Visual am Puls der Zeit mit Dritten zu kommunizieren. Das Team erklärt:

[…] Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512×512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.