Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
OpenAI launcht GPT-4o für alle User, GPTs für Free User und bessere AI-Voice-Optionen

OpenAI launcht GPT-4o für alle User, GPTs für Free User und bessere AI-Voice-Optionen

Niklas Lewanczik | 14.05.24

Mit GPT-4o rollt OpenAI ein brandneues KI-Modell aus, das multimodal und blitzschnell Interaktionen wie Simultanübersetzungen, Objekterklärungen etc. umsetzen kann – und das auch für Free User kommt. Zudem ermöglicht das Unternehmen allen Usern mehr Tool-Zugänge und optimiert die Funktionalität von ChatGPT. Meta hat indes Pläne, um eine AI-Assistenz auf die Ohren zu bringen.

Es ist ein AI Assistant wie im Spielfilm Her von Spike Jonze, den OpenAI für die Allgemeinheit zur Verfügung stellt. Mit dem neuen KI-System GPT-4o – für omni, weil alle Sinne angesprochen werden sollen – im Hintergrund, setzt das KI-Unternehmen auf eine holistischen Assistenz im Umgang mit KI-Tools. Das ermöglicht eine ganz neue Art der Interaktion mit dem KI-Modell und ChatGPT als Tool, sei es bei Übersetzungen oder der Informationsübermittlung auf verschiedenen Ebenen. Darüber hinaus möchte OpenAI mehr Usern Zugriffe auf die eigenen Tools liefern und die Nutzungserfahrung durch ein höheres Tempo verbessern.

Auch Meta möchte mithalten und arbeitet an sogenannten Camerabuds, die als Ohrhöhrer mit Kamera für die Identifikation von Objekten und die Übersetzung dienen sollen, ähnlich wie die Ray-Ban Smart Glasses mit Meta AI, nur über die Earbuds – wie bei Her.

GPT-4o (omni) im Überblick: Gesang, Interview-Vorbereitung, Übersetzung – das kann das Modell

In nur 232 Millisekunden (im Durchschnitt sind es 320 Millisekunden) antwortet GPT-4o auf Audioeingaben von Nutzer:innen, erklärt OpenAI im Blog Post zum neuen Flaggschiffmodell. Dabei soll dieses Modell genauso performant sein wie GPT-4 Turbo, was die Nutzung auf Englisch oder im Code-Kontext angeht. Und auch die Nutzung in anderen Sprachen soll signifikant besser sein als bisher. Schon jetzt können User über die API und ChatGPT den Text- und Audio-Input nutzen, in den kommenden Wochen kommen Input-Optionen im Kontext von Videos und Voice dazu.

Schon zuvor konnten User den Voice Mode mit ChatGPT nutzen. Allerdings wurden dabei verschiedene Modelle eingesetzt und viele Informationen beim Transfer verloren. Jetzt sorgt das eigens für die Multimodalität ausgerichtete Modell GPT-4o (mit dem o für omni) für neue Möglichkeiten. Input und Output werden vom gleichen neuronalen Netzwerk verarbeitet. Was das Modell in der Praxis zu bieten hat, demonstriert das Unternehmen auf X und im eigenen Post ausdrucksstark, während der KI-Experte Jens Polomski auf LinkedIn schreibt:

[…] Das Modell akzeptiert als Eingabe eine beliebige Kombination von Text, Audio und Bild und erzeugt eine beliebige Kombination von Text-, Audio- und Bildausgaben. Wir haben also mit einem Modell zu tun, welches Text, Audio und Video versteht, den Bezug herstellt und in beliebige andere Formate ausspucken kann. Daraus entstehen jetzt bei mir im Kopf schon einige spannende Anwendungsfälle! […].

Mit dem neuen Modell sollen nun vielfältige Anwendungen ermöglicht werden, beispielsweise die Simultanübersetzung.

Bei der Übersetzung von Kantonesisch sieht die Reverse-Engineering-Expertin Jane Manchun Wong jedoch noch Nachholbedarf, was die Aussprache angeht.

Beitrag von @wongmjane
Auf Threads ansehen

Doch das Modell kann den Demos zufolge noch viel mehr. Zum Beispiel liefert es mit Be My Eyes die Option, Informationen zu allem für die Kamera Sichtbaren auszusprechen – und so beispielsweise potentiell auch sehbeeinträchtigen Menschen zu helfen.

Weitere Anwendungsfälle sind das Singen von Schlafliedern, das Erzählen von Dad Jokes, die Teilnahme an Meetings, das multimodale Lösen von Matheproblemen, das Spielen von Schere, Stein Papier, aber auch die Interaktion von ChatGPT-Nutzungsentitäten untereinander, sogar mit Gesang.

Es gibt zahlreiche Anwendungsfälle, die OpenAI im Thread auf X und in der Live-Demo angeführt hat. Bei letzterer wurden auch die Vision- und Voice-Variation-Fähigkeiten vorgestellt.

Risiken, Limitierungen und Verfügbarkeit

Auf dem eigenen Blog erklärt OpenAI, dass GPT-4o effizienter als andere Modelle ist und deshalb für alle User bereitgestellt werden kann, auch für nicht zahlende. Das bezieht sich aber auf die Text- und Image-Input-Optionen, wobei Plus User ein höheres Message Limit haben. In den kommenden Wochen kommt eine Alphaversion des Voice Modes für GPT-4o in der Plus-Version. Und im API-Kontext sind Text- und Bildeingaben schon möglich, in den kommenden Wochen erhalten erste Developer den Audio- und Video-Input-Zugang.

Auch geht OpenAI auf die Risiken ein, die durch dieses multimodale Modell hervorgerufen werden könnten.

We recognize that GPT-4o’s audio modalities present a variety of novel risks. Today we are publicly releasing text and image inputs and text outputs. Over the upcoming weeks and months, we’ll be working on the technical infrastructure, usability via post-training, and safety necessary to release the other modalities. For example, at launch, audio outputs will be limited to a selection of preset voices and will abide by our existing safety policies. We will share further details addressing the full range of GPT-4o’s modalities in the forthcoming system card.

Dabei ist das Modell im Kontext von freiwilligen AI Governance Commitments und im Einklang mit dem eigenen Preparedness Framework – das potentiell katastrophale Risiken der KI vorhersehen soll – entstanden. Es hat allerdings auch einige Limitierungen, die das KI-Unternehmen ebenfalls anführt.

OpenAI erweitert GPT-Zugriff, Meta setzt auf Camerabuds

Die gesamte Interaktion mit ChatGPT und insbesondere mit dem Modell GPT-4o soll eine bessere User Experience ermöglichen. Dafür sorgen die schnelle Verarbeitung, die diversen Stimmen und die vielfältigen Einsatzoptionen. Derweil liefert das KI-Unternehmen OpenAI den Nutzer:innen aber noch mehr erfreuliche Neuigkeiten. Denn die im Herbst 2023 eingeführten Custom GPTs – für die es inzwischen eine GPT Store gibt und die ebenfalls in ChatGPT-Interaktionen integriert werden können – sollen für Free User zur Verfügung gestellt werden. Außerdem können Free User künftig Datenanalysen nutzen, GPT-4 Level Insights erhalten, mit ChatGPT über aufgenomme Fotos sprechen, auf die Memory-Funktion, Web-Antworten und den Dokumenten-Upload zugreifen. In den kommenden Wochen werden diese Optionen bereitgestellt. Des Weiteren arbeitet OpenAI dem Vernehmen nach an einer Integration der eigenen Tools in Apples iOS-Betriebssystem (mehr dazu im unten verlinkten Text).

Derweil möchte auch Meta mit der inzwischen umfassend auf den eigenen Plattformen integrierten Meta AI für eine besondere AI Assistance Experience sorgen. Wie The Information berichtet, soll der Konzern an Camerabuds arbeiten. Dabei handelt es sich um kleine Kopfhörer samt Kamera, die mit KI-Support für Übersetzungen oder Identifizierungen von Objekten und dergleichen eingesetzt werden können. Ihr Vorteil liegt in der hands-free Nutzung, da das Wearable – ähnlich den Smart Glasses – für die KI-Interaktion sorgen soll. Über das finale Design und ein mögliches Roll-out-Datum ist noch nichts bekannt. Der Social-Media-Experte Matt Navarra – zuletzt noch auf der OMR-Bühne unterwegs – fasst die aktuellen Informationen zum Projekt auf Threads zusammen.

Beitrag von @mattnavarra
Auf Threads ansehen

Vielleicht befinden wir uns schon bald in einem KI-Nutzungskontext, der der einst fiktionalen Vision im Spielfilm Her gleicht. Vielleicht gehen wir mit den neuen Entwicklungsschritten aber auch weit darüber hinaus.


Weder GPT-5 noch Suchmaschine, aber Voice Assistant?

OpenAI plant große Ankündigung

© Solen Feyissa - Unsplash, OpenAI-Mission und -Logo auf Smartphone, Blätter im Hintergrund
© Solen Feyissa – Unsplash

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*