Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Googles Lumiere zeigt uns die Zukunft der KI-Kurzvideos

Googles Lumiere zeigt uns die Zukunft der KI-Kurzvideos

Swantje Schemmerling | 30.01.24

Google hat kürzlich seine neueste Innovation, die Text-zu-Video-KI Lumiere, vorgestellt, die darauf abzielt, generative Künstliche Intelligenz für die Erstellung realistischer Videos zu nutzen.

Das Text-zu-Video-Diffusionsmodell Lumiere wurde von Forscher:innen von Google Research, dem Weizmann-Institut, der Tel-Aviv-Universität und dem Technion Israel  entwickelt. Das Modell zielt darauf ab, realistische, vielfältige und kohärente Bewegungen in Videos zu synthetisieren und hebt sich durch besonders klare und flüssige Ergebnisse von der Konkurrenz ab.

Die ersten Beispielvideos, die von den Entwickler:innen auf einer dedizierten Website hochgeladen wurden, geben einen Einblick in die vielen Nutzungsmöglichkeiten von Lumiere und lassen darauf schließen, dass das Produkt bald für die breite Öffentlichkeit zugänglich gemacht wird.  Videos können direkt aus einer Texteingabe generiert werden. Darüber hinaus besteht die Möglichkeit, vorhandene Videos mithilfe von Text-Prompts zu bearbeiten und einzelne Objekte oder Personen auszutauschen. Sogar die Animation statischer Bilder, entweder vollständig oder in Teilen, ist mit Lumiere möglich. Das Hochladen von Bildern oder Videos für eine stilisierte Generierung ist ebenfalls Teil des Funktionsumfangs.

Space-Time-U-Net-Diffusionsmodell für realistischere Videos

Lumiere setzt auf das Space-Time-U-Net-Diffusionsmodell (STUNet), um herauszufinden, wo sich Objekte im Raum befinden und wie sie sich gleichzeitig im Laufe der Zeit bewegen. Im Gegensatz zu anderen Text-zu-Video-KIs betrachtet Lumiere ein Video nicht als Ansammlung einzelner Bilder, sondern als Gesamtmedium. Dadurch kann die KI mit nur einem Prozess ein Video erstellen, anstatt einzelne Standbilder zusammenzusetzen. Die Qualität der erzeugten Videos übertrifft laut dem Entwickler:innen-Team andere vergleichbare KI-Modelle.

Aktuell gibt es jedoch noch einige Einschränkungen: Nutzer:innen können nur fünfsekündige Sequenzen erstellen, Szenenwechsel sind nicht möglich, und die maximale Auflösung liegt bei 1024×1024. Google betritt mit Lumiere einen Markt, der bereits von Wettbewerber:innen wie Runway, Stable Video Diffusion und Metas Emu besetzt ist. Runway, eine der ersten Text-zu-Video-Plattformen für den Massenmarkt, hat im Juli 2023 Runway Gen-2 eingeführt und versucht ebenfalls, realistische Videos anzubieten.

Lumiere hebt sich durch die Fokussierung auf Bewegungssynthese und die Anwendung des STUNet-Diffusionsmodells deutlich von der Konkurrenz ab. Die Möglichkeit, Lumiere selbst auszuprobieren, sowie ein offizielles Veröffentlichungsdatum stehen noch aus.


Googles 7 Ziele für 2024:

Fokus auf KI und Unternehmenseffizienz

Google-Schriftzug vor leuchtendem blauen Hintergrund
© BoliviaInteligente – Unsplash

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*