Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Spektakuläre Zäsur im AI Game: OpenAI launcht Text-to-Video-Tool Sora

Spektakuläre Zäsur im AI Game: OpenAI launcht Text-to-Video-Tool Sora

Niklas Lewanczik | 16.02.24

Sora kann 60 Sekunden lange Videos aus Text-Prompts erstellen und vereint komplexe Kamerabewegungen, detaillierte Szenen und transportiert zuweilen auch Emotionen. Die Konkurrenz für Runway und Co. fasziniert und beunruhigt die Branche immens.

AI Fans kommen aus dem Staunen nicht mehr raus. OpenAIs neuestes KI-Produkt, das Text-to-Video-Tool Sora, krönt eine Woche, die in der Digitalszene bereits von großen Updates aus dem Hause der KI-Expert:innen beherrscht wurde. Einerseits startete OpenAI jüngst den Test der Memory-Funktion für ChatGPT (und GPTs), die die Konversationen langfristig deutlich optimieren kann. Andererseits soll das Unternehmen an einem KI-basierten Suchdienst arbeiten, der nicht weniger vorhaben könnte, als Google im AI-Zeitalter Konkurrenz zu machen.

Mit Sora legt OpenAI jetzt ein Tool in die Hände erster Tester:innen, das Prompts in besonders realitätsnahe Videos zu verwandeln imstande ist. Obwohl das Unternehmen auch auf die Schwächen des Tools hinweist, zeigt sich die Branche von den Fähigkeiten Soras verblüfft – aber auch besorgt.

Sora: Mit wenigen Worten realistische Videos erstellen – so sehen sie aus

Das neue KI-Video-Tool von OpenAI steht in direkter Konkurrenz zu Tools wie Synthesia, Oxolo oder Runways Gen-2. Letzteres lieferte erst kürzlich mit dem Multi Motion Brush neue Optionen, um Videokreationen vielfältige Bewegungen zu verleihen.

Sora kann laut dem Blog Post von OpenAI noch mehr:

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Vor allem das Verständnis der Bewegungen und Details von Tieren, Menschen und Objekten, wie sie im Real Life aussehen könnten und sollten, zeigt sich in ersten Videokreationen, die das Unternehmen präsentiert.

Derzeit kursieren auf sozialen Medien diverse Sora-Videos, die Creator und Expert:innen teilen. So zeigt der Hashtag-Erfinder und Tech-Experte Chris Messina auf Threads eine Kreation, die OpenAI als Header für den aktuellen Blog Post nutzt.

Beitrag von @chris
Auf Threads ansehen

Der bekannte Video-Creator Marques Brownlee weist auf X ebenfalls auf die neuen Sora-Videos hin und schreibt, dass diese auch einen Grund zur Beunruhigung darstellen dürften.

Immerhin können besonders realistisch wirkende KI-Videos auch zu Zwecken der Desinformation, Verunglimpfung oder tatsachenfremden Berichterstattung genutzt werden. Zudem dürften manche Video-Creator künftig ebenfalls vor dem Problem stehen, dass ihnen AI-Tools Aufträge streitig machen könnten.

OpenAI setzt nach eigenen Angaben jedoch bei der Entwicklung Soras stark auf Sicherheitsaspekte – und macht das Tool vorerst nur einigen ausgewählten Personen verfügbar.

Erst die Sicherheit, dann der Roll-out in OpenAI-Modellen

Auf X erklärt OpenAI, dass das Video-Tool zunächst von Expert:innen getestet wird, um Voreingenommenheit, Desinformationsmomente und dergleichen zu erkennen und möglichst zu beheben. Als Sicherheitsgrundlage dienen OpenAI die Standards, die auch für das Bildgenerierungs-Tool DALL-E 3 angesetzt werden.

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who are adversarially testing the model.

Die Videokreation soll das Erstellen von Gewaltszenen, sexuellen Inhalten, Hassbildern, Ähnlichkeiten zu Berühmtheiten etc. nicht ermöglichen. Der Text-Classifier soll entsprechende Prompts ablehnen. Auch soll ein Image Classifier dafür sorgen, dass die Videos den Usern nur gezeigt werden, wenn sie den Richtlinien des Unternehmens entsprechen. Ein technischer Report gibt noch mehr über die Details zum Tool preis.

Einige Künstler:innen, Designer:innen und Filmemacher:innen erhalten jedoch schon Zugriff, um dem Unternehmen Feedback bezüglich der kreativen Prozesse und Wertigkeit des Tools zu liefern. Auf Feedback von Digital-Usern und schlichtweg Interessierten hofft das Unternehmen aber ebenfalls. So fragte CEO Sam Altman auf X nach Prompts, aus denen Sora Videos machen soll.

Daraufhin lieferten einige User Prompts, die Sora mit großem Detailreichtum in Videos umwandelte.

Sora setzt auf Transformer Architecture (wie GPT) und basiert auf Entwicklungsarbeit aus aus dem GPT- und DALL-E-Kontext. Noch gibt es aber auch Probleme bei der Darstellung. So könnten bei der Videokreation links und rechts vertauscht werden, Ursache und Wirkung werden nicht immer sinnvoll in Bezug gestellt (ein aus einem Keks gebissenes Stück könnte kurz darauf wieder im Keks vorhanden sein) und längere Kamerafahrten können zu verwirrenden Einstellungen führen. Mehr Testing und noch mehr Weiterentwicklung könnten diese Probleme im Lauf der Zeit jedoch beheben.

Wann Sora für die Öffentlichkeit zugänglich ist und in welchen Tools (etwa ChatGPT) es integriert wird, ist noch unklar.

Meilenstein auf dem Weg zur Artificial General Intelligence (AGI)?

Da Sora das Ziel hat, mithilfe von KI die Welt in Videos möglichst realitätsgetreu nachzubilden oder zu simulieren, ist das Tool laut OpenAI ein wichtiger Faktor bei der Arbeit, die zur Entwicklung einer Artificial General Intelligence (AGI) führen könnte.

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.

Neben OpenAI arbeitet beispielsweise auch Meta an eigenen KI-Video-Tools – und an der Entwicklung einer AGI. Ein neues V-JEPA genanntes KI-Modell des Konzerns lernt laut Mark Sullivans Beitrag für Fast Company dazu, indem es Videos rezipiert. Metas Chief AI Scientist Yann LeCun sieht in dieser Entwicklung ebenfalls einen Schritt in Richtung AGI. Meta möchte Videos künftig auch Audioelemente hinzufügen, um noch mehr Daten zum Lernen für die KI zu liefern.

Die Weiterentwicklung von KI-Tools und -Modellen hängt stark mit Videoinhalten zusammen. Im November erklärte Google, dass der KI-Bot Bard (jetzt Gemini) in der Lage ist, YouTube-Videos zu verstehen und sich über diese mit Usern auszutauschen. Das fördert im KI-System auch das Verständnis für die Kreation. Neben OpenAI, Meta und Runway liefern diverse Unternehmen KI-Video-Tools. Kürzlich hat beispielsweise ByteDance, der Konzern hinter TikTok und Douyin, das innovative AI-Video-Tool Boximator vorgestellt.


Neues KI-Video-Tool:

Das kann der Boximator von ByteDance

© Boximator, Canva, KI-Videos mit Rechtecken darin, grauer Hintergrund
© Boximator, Canva

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*