Technologie
Hello Voice Agents: OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

Hello Voice Agents: OpenAI bringt neue Speech-to-Text- und Text-to-Speech-Modelle

Caroline Immer | 21.03.25

OpenAIs neue Sprachmodelle sorgen für präzisere Transkriptionen auch in lauter Umgebung und ermöglichen Developern die Entwicklung personalisierter Voice Agents – wie du letztere selbst ausprobieren kannst, liest du im Artikel.

In den vergangenen Monaten konzentrierte sich OpenAI eigenen Angaben zufolge vorrangig auf die Entwicklung und Optimierung textbasierter AI Agents – darunter etwa der Operator, welcher neuerdings auch in Deutschland verfügbar ist. Um „tiefergehende, intuitivere Interaktionen“ mit AI Agents zu erleben, sei jedoch eine Kommunikationsweise, die über Text hinausgeht, essentiell. Realisiert wird diese jetzt durch den Launch neuer Speech-to-Text- und Text-to-Speech-Modelle in der API. Diese sollen es Developern ermöglichen, intelligente und anpassbare Voice Agents zu entwickeln. Die Modelle, welche auf GPT-4o und GPT-4o mini basieren, übertreffen laut OpenAI sowohl die Speech-to-Text-Technologie Whisper als auch die bisherigen Text-to-Speech-Modelle des Unternehmens.


Personalisierbarer denn je

Das neu eingeführte Text-to-Speech-Modell, welches über eine verbesserte Steuerbarkeit verfügen soll, ermöglicht es Entwickler:innen, Stimmen mit Charakter zu kreieren. Da nicht mehr nur der Inhalt, sondern auch die Sprechweise umfassend angepasst werden kann, eröffnen sich verschiedenste Anwendungsbereiche. Developer können beispielsweise Voice Agents erschaffen, die wie ein:e einfühlsame:r Customer-Service-Mitarbeiter:in oder ein:e ausdrucksstarke:r Geschichtenerzähler:in klingen. OpenAI erklärt:

For the first time, developers can “instruct” the model not just on what to say but how to say it—enabling more customized experiences for use cases ranging from customer service to creative storytelling.

Über die interaktive Demo-Website lassen sich die neuen Text-to-Speech-Funktionen direkt ausprobieren. Du kannst eine von elf verschiedenen Stimmen auswählen und zudem einen von fünf Vibes – darunter freundlich, professionell und dramatisch. Zusätzlich besteht die Möglichkeit, individuelle Vorgaben zum gewünschten Tonfall, zur Aussprache und zu weiteren sprachlichen Merkmalen zu machen. Die so konfigurierte Stimme kann anschließend ein selbst verfasstes Skript vorlesen.

Neues Modell schreibt eigenständig Meeting-Protokoll

Auch die zwei neuen Speech-to-Text-Modelle sollen neue Maßstäbe setzen und besonders in anspruchsvollen Fällen – wie Aufnahmen in lauter Umgebung, Stimmen mit starken Akzenten oder variierenden Sprechgeschwindigkeiten – durch eine hohe Leistungsfähigkeit überzeugen. Durch die optimierte Transkriptionszuverlässigkeit eignen sich die Modelle unter anderem für den Einsatz in Call-Centern oder bei der Protokollierung von Meetings.

OpenAI launcht zudem eine Integration mit dem kürzlich eingeführten Agents SDK. Entwickler:innen können somit ihre textbasierten Agents aus dem Agents SDK in wenigen Schritten in voll funktionsfähige Voice Agents umwandeln.



Die Entwicklung von KI-Agents ist dank neuer OpenAI Tools jetzt einfacher denn je

KI-Agents, © OpenAI via Canva

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*