Technologie
ChatGPT kann jetzt sehen, hören und sprechen

ChatGPT kann jetzt sehen, hören und sprechen

Niklas Lewanczik | 26.09.23

In den kommenden Wochen rollt OpenAI für ChatGPT Voice und Image Conversations aus, sodass User wie mit einer lebensnahen KI-Assistenz interagieren können. Doch nicht alle Nutzer:innen erhalten Zugriff.

Du kannst dich jetzt richtiggehend mit ChatGPT unterhalten und den KI-Bot anhand von Foto-Uploads nach Lösungen oder Informationen fragen. OpenAI macht es dank der Voice und Image Conversations möglich, die in den kommenden zwei Wochen ausgerollt werden. So kann ChatGPT künftig sogar Gutenachtgeschichten vorlesen, eine Mahlzeit auf Grundlage der Zutaten auf einem Foto planen oder Grafiken analysieren.

ChatGPT mit neuen Konversationsfunktionen – für zahlende User

Der Roll-out der neuen Features kommt für iOS und Android User und zunächst nur für die Abonnements ChatGPT Plus und ChatGPT Enterprise. Dank der neuen Funktionen kannst du ChatGPT künftig wie eine lebensnahe Assistenz verwenden, die zudem enorm viel Wissen und Know-how bereithält. Wenn du unterwegs eine Pflanze oder ein Gebäude siehst, über die und das du mehr erfahren möchtest, kannst du einfach einen Schnappschuss an den KI-Bot senden (ähnlich wie bei Lens, das Google auch bei Bard integriert hat). Du kannst ChatGPT aber auch komplexe Fragen stellen – nicht zuletzt im Kontext eines Streitgesprächs –, um eine fundierte Antwort zu erhalten. Und Hilfe bei den Hausaufgaben, täglichen Aufgaben im Büro oder beim Kochen, Backen und bei der Reparatur im Haushalt oder am Fahrrad ist ebenso verfügbar. Du musst letztlich nicht mal die Hände frei haben, da ChatGPT dir per Stimme antworten kann.

In der mobilen App können User über Einstellungen und den Bereich „neue Features“ zu den Voice Conversations gelangen, indem sie das Kopfhörer-Icon antippen. Dann haben sie die Wahl zwischen fünf verschiedenen Stimmen, die ChatGTP repräsentieren. Die Sprachausgabe wird durch ein neues Text-to-Speech-Modell generiert, mi dem Textelemente in Audioelemente mit menschenähnlichen Stimmen umgewandelt werden. Auch Whisper wird eingesetzt, um die Wörter der User in Text umzuwandeln.

Auf dem OpenAI Blog zeigt das Unternehmen ein Textbeispiel aus einer Geschichte an, das eine KI-Stimme vorliest. Diese Vorlesestimme klingt zwar noch etwas nach einer computergenerierten, kann aber einige Aspekte des Texts bereits sinnvoll transportieren.

Eine Beispielgeschichte von OpenAI, die von einer KI-Stimme vorgelesen wird, © OpenAI, Text, schwarz auf weiß geschrieben
Eine Beispielgeschichte von OpenAI, die von einer KI-Stimme vorgelesen wird, © OpenAI

Image Conversations können auf vielfältige Weise Hilfe leisten

Die Image Conversations bieten Nutzer:innen die Chance, mit verschiedenen Fotos oder Grafiken eine Konversation mit der KI zu starten, die ihnen Hilfestellung leistet. Wenn sie zum Beispiel eine Grafik nicht verstehen, ein Werkzeug nicht benennen können oder eine Automarke identifizieren möchten, ist der Bildcheck durch ChatGPT eine Option. User können auch mehrere Bilder an die KI weitergeben oder mithilfe eines Malwerkzeugs darstellen, zu welchem visuellen Element sie Informationen benötigen. In der App können sie über ein Foto-Icon zu den Image Conversations gelangen.

Die Informationen von ChatGPT werden mithilfe der Modelle GPT-3.5 und GPT-4 ermittelt und basieren auf Fotos, Screenshots, Grafiken und dergleichen, die oft neben visuellen Elementen auch Textbausteine enthalten.

OpenAI möchte die beiden neuen ChatGPT-Konversationsformen graduell weiterentwickeln und nach und nach mehr Ressourcen freigeben. Jüngst wurden die KI-Sprachfähigkeiten der OpenAI-Modelle von Spotify für die Entwicklung des Voice Translation Tools genutzt. Dieses erlaubt es Podcastern, ihre Folgen via AI in andere Sprachen zu übersetzen, während die Stimme erhalten bleibt. Nach dem Launch von DALL-E 3 stellen die Image und Voice Conversations die nächsten großen Feature-Neuheiten von OpenAI dar. Beim OpenAI DevDay, der ersten Developer-Konferenz des Unternehmens, sollen im November noch mehr neue KI-Lösungen vorgestellt werden.


Spotify meets OpenAI:

KI-Stimmenklone für Podcast-Übersetzung

© Spotify via Canva, Spotify-Logo mit Leuchtröhren, grün leuchtend, an Wand, Büroflur mit Pflanze und Türen
© Spotify via Canva

Kommentare aus der Community

Niklas Lewanczik am 27.09.2023 um 07:51 Uhr

Hallo Kathrin,

danke für dein Feedback und deine Kritik. Das nehmen wir gern an und versuchen, künftig noch stärker darauf zu achten.
Als Medium für digitale Innovationen und Online Marketing versuchen wir vor allem, über Neuerungen aus der Szene zu informieren. Der vorliegende Text ist schlichtweg ein Informationsbeitrag zu den neuen Fähigkeiten von ChatGPT. In einem umfassenderen Beitrag könnte man diese durchaus auch noch mehr beleuchten und kritisch hinterfragen, das stimmt.
Wir haben entsprechende Beiträge in der jüngeren Vergangenheit des Öfteren geschrieben und die Umweltauswirkungen, Probleme mit dem Copyright, Angst vor Datenklau und Entlassungen usw. thematisiert:

https://onlinemarketing.de/technologie/chatbots-suche-neues-ads-design-massive-umweltfolgen
https://onlinemarketing.de/technologie/neue-ai-tools-arbeit-leichter-hubspots-chatspot
https://onlinemarketing.de/technologie/danger-ai-ki-warnung-job-datenverluste
https://onlinemarketing.de/cases/ki-urheberrecht-sarah-silverman-sammelklage-openai-meta
https://onlinemarketing.de/technologie/offener-brief-musk-zwangspause-ki-entwicklung

Wir gehen nicht in jedem Beitrag ausführlich auf die Problematiken ein, was an der Fokussetzung liegt.

Dass die KI für diverse Zwecke eingesetzt wird (auch in der Schule, in der Uni) ist eine Alltagsrealität, der man sich schwerlich verschließen kann, deshalb findet es Erwähnung. Ich denke selbst auch, dass Organisationen, Institutionen und Unternehmen eine Regulierung und klare Vorgaben finden müssen, um den KI-Einsatz in Maßen zu halten.

Grundsätzlich informieren wir sachlich über die Potentiale von (Gen) AI, vor allem für die Marketing-Szene. Wir bemühen uns aber gern, noch mehr kritische Aspekte aufzunehmen. Dies als Erklärung.

Liebe Grüße

Antworten
Kathrin am 26.09.2023 um 22:32 Uhr

Danke für die Infos. Ich schätze euer Tempo, Neues zu berichten, sehr. Aber je mehr Artikel ich in diesem Portal lese, umso stärker kommt die Frage auf, warum für KI so geschwärmt wird,
– ohne die „Unmenschlichkeit“ hinter der KI zu hinterfragen,
– ohne zu reflektieren, wohin sie führen mag,
– ohne zu kritisieren,
– zu erklären, wie viel Zwischenmenschliches verlorengehen wird.

Und hey, klar, Hausaufgaben kann man dabei prima machen. Wie bitte?? Und Vokabelhefte braucht auch keiner mehr. Wie sollen wir den Erwachsenen von morgen vermitteln, dass es noch belohnt wird, das eigene Hirn einzuschalten – und zwar nicht nur, um „ultimative Prompts“ in eine Maschine zu tippen, sondern eine Schulbank zu drücken? Ich fände ein bisschen Contra nicht schlecht, lese aber immer nur Pros.

Antworten
Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*