Hello Voice Agents: Das können OpenAIs neue Sprachmodelle

Hello Voice Agents: OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

Caroline Immer | 21.03.25

OpenAIs neue Sprachmodelle sorgen für präzisere Transkriptionen auch in lauter Umgebung und ermöglichen Developern die Entwicklung personalisierter Voice Agents – wie du letztere selbst ausprobieren kannst, liest du im Artikel.

In den vergangenen Monaten konzentrierte sich OpenAI eigenen Angaben zufolge vorrangig auf die Entwicklung und Optimierung textbasierter AI Agents – darunter etwa der Operator, welcher neuerdings auch in Deutschland verfügbar ist. Um „tiefergehende, intuitivere Interaktionen“ mit AI Agents zu erleben, sei jedoch eine Kommunikationsweise, die über Text hinausgeht, essentiell. Realisiert wird diese jetzt durch den Launch neuer Speech-to-Text- und Text-to-Speech-Modelle in der API. Diese sollen es Developern ermöglichen, intelligente und anpassbare Voice Agents zu entwickeln. Die Modelle, welche auf GPT-4o und GPT-4o mini basieren, übertreffen laut OpenAI sowohl die Speech-to-Text-Technologie Whisper als auch die bisherigen Text-to-Speech-Modelle des Unternehmens.

🗣️
00:00 Intro
01:32 Audio agents
03:27 Speech-to-text
06:18 Text-to-speech
08:48 Agents SDK

Read more in our blog post: https://t.co/DQYJAO3eA3 https://t.co/ZtJbWexks9 pic.twitter.com/X6pikNMCjI
— OpenAI Developers (@OpenAIDevs) March 20, 2025

Personalisierbarer denn je

Das neu eingeführte Text-to-Speech-Modell, welches über eine verbesserte Steuerbarkeit verfügen soll, ermöglicht es Entwickler:innen, Stimmen mit Charakter zu kreieren. Da nicht mehr nur der Inhalt, sondern auch die Sprechweise umfassend angepasst werden kann, eröffnen sich verschiedenste Anwendungsbereiche. Developer können beispielsweise Voice Agents erschaffen, die wie ein:e einfühlsame:r Customer-Service-Mitarbeiter:in oder ein:e ausdrucksstarke:r Geschichtenerzähler:in klingen. OpenAI erklärt:

For the first time, developers can “instruct” the model not just on what to say but how to say it—enabling more customized experiences for use cases ranging from customer service to creative storytelling.

Über die interaktive Demo-Website lassen sich die neuen Text-to-Speech-Funktionen direkt ausprobieren. Du kannst eine von elf verschiedenen Stimmen auswählen und zudem einen von fünf Vibes – darunter freundlich, professionell und dramatisch. Zusätzlich besteht die Möglichkeit, individuelle Vorgaben zum gewünschten Tonfall, zur Aussprache und zu weiteren sprachlichen Merkmalen zu machen. Die so konfigurierte Stimme kann anschließend ein selbst verfasstes Skript vorlesen.

Neues Modell schreibt eigenständig Meeting-Protokoll

Auch die zwei neuen Speech-to-Text-Modelle sollen neue Maßstäbe setzen und besonders in anspruchsvollen Fällen – wie Aufnahmen in lauter Umgebung, Stimmen mit starken Akzenten oder variierenden Sprechgeschwindigkeiten – durch eine hohe Leistungsfähigkeit überzeugen. Durch die optimierte Transkriptionszuverlässigkeit eignen sich die Modelle unter anderem für den Einsatz in Call-Centern oder bei der Protokollierung von Meetings.

OpenAI launcht zudem eine Integration mit dem kürzlich eingeführten Agents SDK. Entwickler:innen können somit ihre textbasierten Agents aus dem Agents SDK in wenigen Schritten in voll funktionsfähige Voice Agents umwandeln.

Die Entwicklung von KI-Agents ist dank neuer OpenAI Tools jetzt einfacher denn je

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentar

_* Hiermit willige ich in die Verarbeitung meiner angegebenen personenbezogenen Daten für das Kommentieren des Beitrags der Onlinemarketing.de GmbH ein. Mir ist bekannt, dass ich meine Einwilligung jederzeit durch eine formlose E-Mail an info@onlinemarketing.de widerrufen kann. Durch den Widerruf der Einwilligung wird die Rechtmäßigkeit der Verarbeitung, die aufgrund der Einwilligung bis zum Widerruf erfolgt ist, nicht berührt. Weitere Informationen über den Umgang mit Ihren Daten finden Sie in unserer Datenschutzerklärung.

Hello Voice Agents: OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

Personalisierbarer denn je

Neues Modell schreibt eigenständig Meeting-Protokoll

Die Entwicklung von KI-Agents ist dank neuer OpenAI Tools jetzt einfacher denn je

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Kommentare aus der Community

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Beliebte Kategorien

Nützlich

OnlineMarketing.de