Technologie
KI macht Texte zu Videos: GPT-4 kommt nächste Woche mit multimodalem Modell
© DeepMind (Unsplash), sofirinaja via Canva

KI macht Texte zu Videos: GPT-4 kommt nächste Woche mit multimodalem Modell

Niklas Lewanczik | 10.03.23

Der CTO von Microsoft Deutschland hat den Roll-out von GPT-4 bestätigt. Die multimodalen Modelle sollen ein Gamechanger sein und können für Videos, Podcasts, Bilder und Co. eingesetzt werden.

Gerade noch hat OpenAI die neue ChatGPT API für Entwickler:innen vorgestellt – die unter anderem Snapchat für den Chatbot My AI genutzt hat –, da kommt schon die nächste große Nachricht aus den Häusern Microsoft und OpenAI: Das heißersehnte neuronale Netzwerk GPT-4 wird als hochfunktionale Nachfolgelösung für GPT-3.5 schon kommende Woche ausgerollt. Den Release hat Andreas Braun, CTO Microsoft Germany und Lead Data & AI STU, bei einer Informationsveranstaltung am 9 März bestätigt, wie Heise Online berichtet. Die multimodalen Einsatzformen sollen die KI-Lösungen von Microsoft, OpenAI und Co. künftig noch eindrucksvoller machen. So wird es zum Beispiel möglich sein, über eine Texteingabe Videos zu erstellen und zu bearbeiten.

Unterdessen liefert die Digitalbranche reihenweise neue AI Tools, die Marketer, Brands und Creator bei ihrer Arbeit unterstützen: von GrammarlyGO bis über Discords Chatbot Clyde bis hin zu einem Caption-Generator für Instagram.



GPT-4: Neue Möglichkeiten für den KI-Einsatz

Erst seit dem Launch von ChatGPT im November 2022 ist der KI-Hype so richtig ins Rollen geraten. Schon zuvor wurden auf diversen Plattformen und bei vielen Diensten KI-Anwendungen eingesetzt. Doch mit dem funktionalen Chatbot im AI-Kontext konnte OpenAI viele User und Marken von der Relevanz der neuronalen Netzwerke und Sprachmodelle sowie ihrer Potentiale überzeugen. Insbesondere die Integration von einer OpenAI-KI bei Microsofts Diensten wie Bing sorgt seit Wochen für Furore und diverse neue Anwendungsszenarien – dazu zählt auch der Celebrity Mode, der die KI eine Berühmtheit im Chat imitieren lässt. Kürzlich konnte OpenAI sogar Bing hinsichtlich des Website Traffics erstmals überholen.

Dabei erlebt die Suchmaschine, die hinter Google weltweit Platz zwei auf dem Search-Markt belegt, ein neues Hoch bei der Nutzung. Bing konnte jüngst die Marke von 100 Millionen täglichen Besucher:innen knacken.

Während die KI-Tools und -Integrationen, die Microsoft, aber auch andere Unternehmen, aufgebaut haben, auf GPT-3 oder GPT-3.5 basieren, haben sich viele Menschen gefragt, wann endlich die neuere Version GPT-4 kommen wird. Denn von dieser erwartet die Branche noch mehr Leistung für den Einsatz Künstlicher Intelligenz und damit noch mehr Spielraum für die automatisierte Content-Erstellung, das Community Management und dergleichen mehr. Im Rahmen des Events „KI im Fokus – Digitaler Kickoff“ hat der CTO von Microsoft Deutschland, Andreas Braun, den bevorstehenden Release des Sprachmodells GPT-4 bekanntgegeben. Er sagte:

Wir werden nächste Woche GPT-4 vorstellen, da haben wir multimodale Modelle, die noch ganz andere Möglichkeiten bieten werden – zum Beispiel Videos.

Multimodalität erinnert an Google-Suche

Die Ankündigung dürfte die Branche in helle Aufregung versetzen. Denn GPT-4 soll Multimodalität beim KI-Einsatz in den Mittelpunkt stellen. Das heißt, dass medienübergreifende Einsatzformen von KI-Tools optimiert werden. So soll eine Texteingabe bei einem Bot dazu beitragen können, ein funktionales Video oder Musik zu erstellen. Darüber hinaus ist aber auch relevant, dass die KI nicht nur (komplexe) Texte versteht, sondern auch Medienformen wie Videos, Bilder, Musik etc. in die Berechnungen für Antworten und Erzeugnisse miteinbezieht. Das erinnert bereits grob an Googles Multisearch, in deren Rahmen die Suchmaschine – ebenfalls mithilfe von KI – komplexe Suchanfragen versteht und mit diversen Inhalten, Videos, Fotos, Text-Snippets und dergleichen, bedient. Prabhakar Raghavan, Senior Vice President bei Google, erklärte im Frühjahr 2022 dazu:

Heute definieren wir die Google Suche neu und kombinieren unser Verständnis aller Arten von Informationen – Text, Sprache, Bild und mehr – damit ihr nützliche Informationen zu allem, was ihr seht, hört und erlebt, auf die intuitivste Weise finden könnt. Wir stellen uns eine Zukunft vor, in der ihr eure ganze Welt auf jede Art und Weise durchsuchen könnt.

GPT-4 aber geht noch weiter und erleichtert mit optimierten KI-Einsatzmöglichkeiten die Arbeit von Menschen, die zum Beispiel auf Microsoft Azure und Teams zugreifen – oder auf andere ChatGPT-Integrationen.


Spätestens seit dem Hype um ChatGPT und Co. willst du mit AI auch dein Business revolutionieren? Beim Digital Bash EXTREME – AI-Driven Marketing lernst du am 14. März, wie das am besten funktioniert.

Volle Fahrt voraus beim Digital Bash EXTREME – AI-Driven Marketing


Zahlreiche neue KI-Tools faszinieren die Marketing-Szene

Erst kürzlich hat der von Millionen von Menschen sowie zahlreichen Unternehmen genutzte Messing-Dienst Slack die Integration von ChatGPT angekündigt.


Slack integriert ChatGPT:

Lass die KI den Kolleg:innen antworten

© Slack, Slack mit ChatGPT-Integration
© Slack


Dieser Nachricht folgten verschiedene Verlautbarungen anderer Plattformen. Spotify beispielsweise führte jüngst einen KI-Guide namens DJ ein, der Usern beim Entdecken von Musik und Podcasts helfen soll; dieser basiert auch auf OpenAI-Systemen.

Dem folgte die Ankündigung der Plattform Discord, dass ein Chatbot mit dem Namen Clyde eingeführt wird. Zusätzlich launcht die Plattform in Kooperation mit OpenAI einen AI Incubator und ermöglicht die Zusammenfassung von Konversationen – ähnlich wie auf Slack mit der ChatGPT-Integration.

KI-Schreibassistenz von Grammarly bietet noch mehr Hilfestellung

Diese Funktionen dürften für Millionen von Usern von Interesse sein, ebenso wie die neuen KI-Tools des Software-Unternehmens Grammarly. Dieses hat kürzlich GrammarlyGO gelauncht, ein generatives KI-Produkt, das in Kombination mit der Schreibassistenz des Unternehmens unterschiedlichste Texte erstellen und optimieren kann.

Texte sollen nach Tonalität und Publikum angepasst werden können, einfach per KI, © Grammarly
Texte sollen nach Tonalität und Publikum angepasst werden können, einfach per KI, © Grammarly

Rahul Roy-Chowdhury, Global Head of Product bei Grammarly, erklärt:

Generative KI stellt einen Wendepunkt in der Innovation dar, den unser Unternehmen nutzen kann, um noch mehr Wert für unsere Kund:innen zu schaffen. Seit mehr als einem Jahrzehnt bieten wir einen KI-gestützten Service zur Kommunikationsassistenz an, um den Menschen und Unternehmen bei ihren tagtäglichen Herausforderungen zu helfen. Jetzt gehen wir einen Schritt unserer Vision weiter über alle Phasen der Kommunikation hinweg zu unterstützen: Von der Überarbeitung der geschriebenen Texte bis hin zur Konzeption und Komposition – und das alles unter Beibehaltung unserer hohen Standards für Qualität, Datenschutz und Sicherheit.

Zeitersparnisse und neue Ideen sollen bei der E-Mail-Beantwortung, Textverfassung für Unternehmenstexte und auch beim Community Management auf Social Media möglich sein.

Rewriting-Prozess mit GrammarlyGO, © Grammarly
Rewriting-Prozess mit GrammarlyGO, © Grammarly

GrammarlyGO wird in verschiedenen Grammarly-Produktangeboten verfügbar sein, einschließlich Grammarly Free (in ausgewählten Märkten), Grammarly Premium, Grammarly Business, Grammarly for Education und Grammarly for Developers. Der Start der Betaphase ist am 4. April.

Für die Text- oder genauer Caption-Erstellung in den sozialen Medien gibt es indes schon einige Lösungen. So bietet zum Beispiel Hootsuite jetzt einen Caption-Generator für Instagram an.

Die immer neuen KI-Tools und deren Anwendungsszenarien bieten Marketern, Brands und Creatorn viel Potential zur Prozessoptimierung. Doch auch die KI-Systeme müssen noch optimiert werden, wie der Fall um das Alter Ego der Bing AI Sydney beispielhaft zeigte. Einen Schritt in die Richtung der Optimierung macht Meta. Der Konzern veröffentlichte das Datenset namens Casual Conversations v2. Dieses soll Researcher dabei unterstützen, ihren KI-Modellen Fairness gegenüber allen Communities zu vermitteln. Meta erklärt:

The dataset features 26,467 video monologues recorded in seven countries featuring 5,567 paid participants who provided self-identified attributes such as age and gender, and is the next generation following the original Casual Conversations consent-driven dataset, which we released in 2021. To our knowledge, it’s the first open source dataset with videos collected from multiple countries using highly accurate and detailed demographic information to help test AI models for fairness and robustness.


Neue AI Tools machen deine Arbeit leichter:

HubSpots ChatSpot und Co. verändern die Workflows

© DeepMind - Unsplash, Deep-Learning-Grafik abstrakt
© DeepMind – Unsplash

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*