Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
OpenAI: Advanced Voice Mode auch für Free User und Realtime API

OpenAI: Advanced Voice Mode auch für Free User und Realtime API

Niklas Lewanczik | 02.10.24

Das KI-Unternehmen OpenAI weitet den Zugriff auf den Advanced Voice Mode aus, macht auch EU-Usern Hoffnung und liefert neue Developer Features wie die Realtime API und Vision Finetuning.

Erst vor Kurzem hat OpenAI endlich mit dem Roll-out des Advanced Voice Mode für Plus und Team User begonnen. Dieser Modus ermöglicht Usern, dass die Konversationen in Echtzeit auch Unterbrechungen enthalten können, ohne dass das Gespräch dann abbricht. Zum anderen soll die KI im Voice Mode bestimmte Emotionen von Sprecher:innen erkennen und darauf reagieren können – ähnlich wie Menschen auch. Jetzt wird der Modus auch für alle Enterprise, Edu und Team User weltweit ausgerollt. Und sogar einige Free User sollen die Chance erhalten, das Feature in der aktuellsten ChatGPT-App-Version zu testen, dem inzwischen Custom Instructions, die Memory-Funktion und fünf neuen Stimmen hinzugefügt wurden.

User in der EU müssen aber aufgrund von Datenschutzregularien weiter warten; immerhin weist OpenAI darauf hin, dass man Nutzer:innen in der EU ein Update mit Neuigkeiten vermitteln möchte.


ChatGPT:

Advanced Voice Mode mit Emotionserkennung im Roll-out

Smartphone Mockup mit ChatGPT Plus Advanced Voice Mode, Farbverlauf, helle Veilchenfarbe, im Hintergrunde
© OpenAI via Canva


News vom OpenAI Dev Day: Finetuning für GPT-4o und Co.

Neben dem jüngsten Update für ChatGPT hat das Unternehmen für die OpenAI Platform einige Neuheiten vorgestellt, die Entwickler:innen zugutekommen.

Neu ist zum Beispiel die Realtime API, welche Speech-to-Speech-Funktionen – nicht unähnlich dem Advanced Voice Mode – für Developer ermöglicht. Ab jetzt können Audio-Inputs und -Outputs direkt integriert werden, um möglichst natürliche Konversationen in der eigenen KI-Erfahrung, etwa in einer App, zu schaffen.

Dazu kommt das Prompt Caching, das die Kosten und Latenz für Developer senken soll, die ohnehin viele Kontexte mehrfach verwenden und neu integrieren. Außerdem wird eine Model Distillation eingeführt, die ebenfalls die Kosten senken kann. Denn damit können Entwickler:innen kleinere Modelle mit dem Output von größeren Modellen feinjustieren, etwa im Bereich Stored Completions. Das Finetuning spielt indes auch eine Rolle in der API. Denn OpenAI integriert Vision in die Finetuning API und ermöglicht so, dass neben Text auch Bilder zur granularen Abstimmung und Optimierung des Modells GPT-4o eingesetzt werden können.

Darüber hinaus bietet OpenAI für Entwickler:innen neue Playground Features mit automatischer Erstellung von Prompts und Funktionsschemata für neue Prototypen sowie einen erweiterten Zugriff und veränderte Nutzungs-Limits für die o1-Bearbeitung in der API.

Während OpenAI also diverse Neuerungen für die Arbeit mit den eigenen KI-Modellen und Tools sowie deren Nutzung bereitstellt, setzt auch Microsoft – das eng mit OpenAI zusammenarbeitet – auf ein großes Update für die Allround AI Copilot.


Microsoft Copilot Update:

Voice und Vision wie bei ChatGPT

Microsoft Copilot Titelbild, Logo und Text
© Microsoft

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*