Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Im Sora Hype: Jetzt kommt Audio-Background für AI-Videos von ElevenLabs, Meta und Co.

Im Sora Hype: Jetzt kommt Audio-Background für AI-Videos von ElevenLabs, Meta und Co.

Niklas Lewanczik | 19.02.24

OpenAIs Text-to-Video-Tool Sora sorgt für Furore. ElevenLabs zeigt jetzt ein Feature, das automatisch Sound für AI-Videos kreiert. Auch Meta arbeitet an der KI-Videoproduktion mit Sound. Das könnte die Filmproduktion nachhaltig verändern.

Mit dem Launch von Sora hat OpenAI der KI-Content-Produktion einen neuen Meilenstein verpasst. Zwar bieten auch andere Unternehmen Text-to-Video-Tools an – insbesondere Runway über Gen-2. Doch die realitätsnahen und detailgetreuen Videos von Sora sorgten in den Tagen nach der Veröffentlichung für viel Resonanz im Digitalraum und unter Expert:innen.

So schrieb der AI-Experte Stefan von Gagern auf LinkedIn etwa:

Filme werden niemals mehr so sein wie zuvor. 🎥🎬✨Der KI-Videogenerator OpenAI Sora kam wie ein Paukenschlag […].

Die Vielschichtigkeit sowohl der Content-Elemente als auch der KI-Tools zeigt sich nun nicht zuletzt daran, dass der nächste Schritt bei der KI-Videogenerierung die Integration von passendem Audiohintergrund ist. Genau diese bietet ElevenLabs auf Basis von Künstlicher Intelligenz und zeigt eine Demonstration anhand der neuen Sora-Videos. Unterdessen möchte Meta ebenfalls hochfunktionale KI-Videos liefern – mit Sound und tiefem Verständnis der Realität.


Runways Gen-2:

Das ist das Text-to-Video-KI-Tool

© DeepMind - Unsplash, abstrakte Landschaft, digitale Strukturen, eckig, violett und blau
© DeepMind – Unsplash


AI-Videos mit Audiohintergrund: ElevenLabs geht über Text-to-Speech hinaus

Das KI-Unternehmen ElevenLabs ist vor allem für Text-to-Speech Software bekannt. Auch das Quasi-Klonen von Stimmen gehört zum Repertoire des Unternehmens. Darauf deuten die KI-Experten Jens Polomski und Matt Navarra hin. Doch Luke Harries, Head of Growth bei Eleven Labs, erklärt auf X, dass das Unternehmen noch viel mehr zu bieten hat. So kann dieses auch KI-generierte Audiohintergründe erstellen, etwa zu Videos. Das funktioniert dann auch bei AI-basierten Clips. Dementsprechend zeigt ElevenLabs auf X, wie die populären Sora-Videos von OpenAI mit AI-Hintergrundaudio vom eigenen Unternehmen aussehen und sich anhören.

Harries erklärt zudem, dass ElevenLabs nicht nur Voice Over, sondern beispielsweise auch Dialoge generieren kann.

Die Videoproduktion wird also grundlegend verändert. Das ist für die Branche, insbesondere für Videoproduzent:innen, beunruhigend und aufregend zugleich.

Sora bietet noch mehr Möglichkeiten, Meta stellt AI-Video-Learning in den Fokus

Welch großen Einfluss Sora schon jetzt – noch vor dem Launch für die Öffentlichkeit – auf die Branche hat, untermauert auch der mögliche Zusammenhang zwischen einem Kurseinbruch beim Software-Unternehmen Adobe und der Sora-Vorstellung. Der Publisher Investor’s Business Daily und der OMR Podcast Host und OMR X-Geschäftsführer Noah Leidinger sehen in diesen Entwicklungen eine Korrelation. Adobe selbst bietet inzwischen diverse KI-Tools und Features an. Dazu zählt auch das Project Fast Fill, das die KI-Videobearbeitung deutlich vereinfachen und große Veränderungen im Handumdrehen ermöglichen kann.

Was OpenAIs Sora zu bieten hat, erklärt das Unternehmen im Blog Post:

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

Neben hochwertigen Videos kann Sora aber auch animierte und statische Grafiken sowie Bilder generieren, wie KI-Experte Andrew Curran auf X zeigt.

Auch Meta arbeitet fleißig an eigenen KI-Video-Tools – und an der Entwicklung einer AGI. Ein neues V-JEPA (Video Joint Embedding Predictive Architecture) genanntes KI-Modell des Konzerns lernt sogar auf Basis von Videos, um das Verständnis der Welt zu erweitern. Metas Chief AI Scientist Yann LeCun sieht in dieser Entwicklung einen Schritt in Richtung AGI. Und: Meta möchte Videos künftig auch Audioelemente hinzufügen, um noch mehr Daten zum Lernen für die KI zu liefern. Die Relevanz der stets umfassenderen Inhalte für die KI-Kreation und das Lernen der KI-Modelle anhand von multimodalen Elementen nimmt rasch zu. So hängt also die Weiterentwicklung von KI-Tools und -Modellen hängt stark mit Bild-, Audio- und Videoinhalten zusammen. Im November erklärte Google, dass der KI-Bot Bard (jetzt Gemini) in der Lage ist, YouTube-Videos zu verstehen und sich über diese mit Usern auszutauschen. Das fördert im KI-System auch das Verständnis für die Kreation.

OpenAI möchte Sora noch weiter optimieren, ehe es umfassend ausgerollt wird. Aktuell sucht das Unternehmen passendes Personal für das entsprechende Team.

Derweil entwickeln viele weitere Unternehmen und Tech-Konzerne KI-Lösungen zur Videobearbeitung und -kreation sowie zur Optimierung solcher Clips durch Audiohintergrund. ByteDance hat beispielsweise kürzlich das innovative AI-Video-Tool Boximator vorgestellt.


Spektakuläre Zäsur im AI Game:

OpenAI launcht Text-to-Video-Tool Sora

© OpenAI, Sora AI Video Frau mit Sonnenbrille, Gesichtsdetails sichtbar, roter Lippenstift
© OpenAI

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*