Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Google lässt OpenAI alt aussehen: Veo 2 und Imagen 3 erstaunen die Branche

Google lässt OpenAI alt aussehen: Veo 2 und Imagen 3 erstaunen die Branche

Niklas Lewanczik | 17.12.24

Mit Veo 2 und Imagen 3 können User dank Googles KI fotorealistische Videos und Bilder erstellen, die OpenAIs Sora, Midjourney und Co. große Konkurrenz machen. Außerdem ermöglicht Google mit Whisk das Prompting mit Bildern.

Mitten hinein in die 12 Days of OpenAI launcht Google eine bahnbrechende KI-Neuheit nach der anderen. Kürzlich hat OpenAI zum Beispiel den heiß ersehnten öffentlichen Zugriff auf das leistungsfähige KI-Video-Tool Sora vorgestellt. Derweil hat Google mit dem Launch des bisher leistungsfähigsten eigenen KI-Modells Gemini 2.0 in der Version Flash die Aufmerksamkeit auf sich gezogen, da dieses Modell diverse Anwendungsbereiche findet und von allen Usern im Web und via Gemini App schon getestet werden kann.

Und während OpenAI stets weiter neue Features vorstellt, buhlt auch Google um die mediale Aufmerksamkeit der Developer, User und nicht zuletzt Unternehmen. So liefert Google jetzt auch Sora und anderen KI-Video-Tools große Konkurrenz. Denn mit Veo 2 ist ein State-of-the-art-KI-Modell zur Videogenerierung auf den Plan getreten, das bald sogar zur Shorts-Kreation und in weiteren Tools verfügbar sein soll. Darüber hinaus hat Google mit Imagen 3 und Whisk innovative KI-Bildkreationsoptionen geliefert, die die Arbeit vieler Kreativer erleichtern sollen.

Auf Threads ansehen


Gemini 2.0:

So kannst du Googles Mega-KI-Modell testen

Gemini 2.0-Schriftzug vor dunkelblauem Hintergrund
© Google via Canva


Veo 2: Brandneues KI-Modell für täuschend echte Videos

Schon vor etwas über einer Woche rollte Google Veo und Imagen 3 für Vertex AI aus, sodass erste Tester:innen die Video- und Bildkreationsoptionen mit Text-to-Visual-Funktion in hoher Qualität testen und sogar für Business-Kontexte einsetzen konnten. Das erklärte Googles CEO Sundar Pichai via X.

Diese beiden generativen Modelle mit AI Support für fotorealistische Visuals in Sekundenschnelle waren bereits bei der I/O im Frühjahr angekündigt worden, allerdings gab es zu der Zeit noch nicht die zweite Version des Veo-Modells. Diese stellt Google jetzt im Blog Post vor. Aäron van den Oord und Elias Roman schreiben:

Veo 2 creates incredibly high-quality videos in a wide range of subjects and styles. In head-to-head comparisons judged by human raters, Veo 2 achieved state-of-the-art results against leading models […].

Ab jetzt verfügbar via ImageFX, VideoFX und das Experiment Whisk in Labs, kann Veo 2 Tools und Modellen wie Sora, Runway Gen-3 Alpha und Dream Machine 1.5 Konkurrenz machen. Dabei können User cinematografische Angaben machen, die das Modell umsetzen kann. Genres, Kameraeffekte, Linseneinstellungen und Co. lassen sich vorgeben und Veo 2 liefert Clips in 4k-Auflösung. Dabei sollen auch Halluzinationen und die Integration unerwünschter Inhalte – etwa ein sechster oder unförmiger Finger an einer menschlichen Hand – minimiert werden.

Ein Beispielvideo von Veo 2, © Google

Erste Reaktionen: Mindblowing, besser als Sora

Auf diese Weise wird der Output realistischer. Von den Ergebnissen zeigen sich viele Creator in der Branche begeistert, so zum Beispiel Marques Brownlee. Dieser hat als Videoproduzent Millionen Follower und sieht in Veo 2 bessere Kreationen als bei Sora.

Auch der AI-Experte Pietro Schirano, der schon KI-Teams für Facebook, Uber und Co. geleitet hat, ist von den realitätsnahen Videos überwältigt.

Aktuell bietet der Google DeepMind Research Director und Co-Lead für Veo, Dumitru Erhan, via X an, Prompts von Usern direkt ins Modell einzupflegen, um das Ergebnis zu teilen. Ein Beispiel zeigt er im Thread.

Der Zugriff für das VideoFX Tool, das Veo 2 beinhaltet, wird derzeit ausgeweitet. Über Google Labs können sich Interessierte auf die Warteliste schreiben lassen; in Deutschland ist VideoFX leider noch nicht verfügbar.

Künftig soll Veo 2 aber auch bei YouTube integriert werden, etwa um Shorts zu optimieren. Mit Veo können YouTube Creator schon jetzt beispielsweise Videoelemente wie Hintergründe kreieren. Um Desinformationen im Kontext dieser sehr realitätsnahen Visuals vorzubeugen, integriert Google im Output stets ein unsichtbares SynthID-Wasserzeichen. Nichtsdestoweniger dürfte der Einsatz von Veo 2 und anderen KI-Videogenerierungs-Tools nicht nur zu außergewöhnlich schönen und kreativen Kreationen führen, die für Kunst, Marketing und dergleichen eingesetzt werden, sondern auch zu manipulativen Praktiken.

Imagen 3 erhält Update: Mehr Details, näher am Prompt, noch mehr Styles

Das KI-Bildkreationsmodell Imagen 3 von Google wurde ebenfalls optimiert. Imagen 3 ist schon länger verfügbar, die neueste Version kommt jetzt zu ImageFX in Google Labs. Leider ist auch dieses Tool in Deutschland noch nicht verfügbar. Mit den neuen Fähigkeiten soll Imagen 3 detailreichere Visuals erschaffen und dabei mehr Strukturelemente integrieren, verschiedene Styles aufgreifen können – von Anime bis Impressionismus – und sich schließlich deutlich besser an die Prompts halten.

In Sachen Prompting hat Google indes noch ein weiteres Update in petto. Denn mit dem neuen Experiment namens Whisk können User der Google Labs direkt mit Visuals prompten. Sie haben die Möglichkeit, Bilder hochzuladen oder zu erstellen und auf Basis dieser Remixe zu erstellen oder neue Kreationen hervorzurufen. Dabei werden die Fähigkeiten von Imagen 3 und Geminis Bildverständnisse kombiniert. Gemini extrahiert Captions aus den Bildkreationen, gibt diese an Imagen 3 weiter und das Bildgenerierungsmodell erstellt ein neues Visual. Wie das funktionieren kann, zeigt Google im Video.

Leider ist Whisk zunächst nur in den USA via Google Labs verfügbar.


Weltenbildung mit KI-Bildern:

Runway Frames ist da

Diverse Bilder mit Menschen in verschiedenen Stilen, KI-erstellt, nebeneinander
© Runway via Canva

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*