Alexas Stimme wird natürlicher und passt sich dem Content an

Die Stimme Alexas, Amazons Sprachassistenz, soll künftig nicht nur natürlicher sein, sondern auch verschiedene Inhalte unterschiedlich betonen.

Amazon Echo-Gerät mit Alexa, Screenshot YouTube, © Alexa Developers

Amazon gab bekannt, dass Alexa dank optimierter Text-to-Speech (TTS)-Technologie eine natürlicher klingende Stimme erhalten soll. Darüber hinaus wird die Stimme den Anforderungen verschiedener Content-Typen mehr Beachtung schenken. Die neu entwickelte Neural TTS ermöglicht eine größere Bandbreite bei der Sprache der KI.

Seit 2014 kann Alexa einzelne kurze Speech Snippets (Diphone) verbinden und als Sprachantwort wiedergeben. Per Machine Learning haben die Entwickler überprüft, welche Diphone ausgewählt und wie diese in Verbindung gebracht werden müssen, um eine natürliche Sprache darzustellen. Im Zuge dessen wurde Neural TTS entwickelt. Trevor Wood und Tom Merritt, Wissenschaftler in Diensten der Alexa-Gruppe, erklären die Einzelheiten und geben Beispiele. Sie unterscheiden Stimmen zwischen den verknüpfenden Versionen, neutralen Sprechern im NTTS und solchen, die an Nachrichtensprechern orientiert sind. Laut einer eigenen Umfrage sind letztere nach der menschlichen Stimme am beliebtesten.

Beliebtheit der vom Alexa-Team untersuchten Stimmen, © Amazon

Der an Nachrichtensprechern orientierte Stil soll widerspiegeln, wie Alexa den Sprachstil dem vorliegenden Text mehr anzupassen vermag.

News werden anders präsentiert als Wikipedia-Einträge

Die NTTS-Technologie soll es Alexa ermöglichen, News anders vorzutragen als etwa einen Eintrag von Wikipedia. Inbesondere die Betonung einzelner Wörter, die Intonation insgesamt und das damit verbundene Pausen-Setzen wurden verbessert. Bei Anfragen in den USA wie „Alexa, what’s the latest?“ wird Alexa an eine Nachrichtensprecherin angelehnt die News präsentieren.

The ability to teach Alexa to adapt her speaking style based on the context of the customer’s request opens the possibility to deliver new and delightful experiences that were previously unthinkable. We’re thrilled that our customers will get to listen to news and Wikipedia information from Alexa in this new way,

sagt Andrew Breen, Senior Manager beim TTS Research Team Amazons. Das Team liefert auf dem Blog Beispiele für die verschiedenen Sprachklänge. Der Unterschied wird jedoch bei kurzen Beispielen des Alexa-Teams noch deutlicher:

Female voice

Male voice

Concatenative Concatenative
Standard neutral NTTS Standard neutral NTTS
NTTS newscaster NTTS newscaster

Mit diesen Updates wird die Integration der Sprachassistenz in den Alltag untermauert, indem weitere Hürden für Nutzer abgebaut werden. Noch ist der Unterschied nicht frappierend, doch die Entwicklung ist längst nicht am Ende.

Alexas Stimme wird natürlicher und flexibler

Über Niklas Lewanczik

Niklas Lewanczik

Niklas hat an der Uni Hamburg Deutsche Sprache und Literatur sowie Medien- und Kommunikationswissenschaften studiert und schreibt als Redakteur über Social Media, SEO und innovative Themen im Kontext des digitalen Marketing. Wenn er sich nicht gerade dem Marketing zuwendet, dann womöglich den Entwicklungen im modernen Fußball oder dem einen oder anderen guten Buch.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.