Mit dem erweiterten Sprachmodus können ChatGPT-Nutzer künftig “natürliche” Unterhaltungen mit dem Chatbot in Echtzeit führen.
OpenAI hat kürzlich eine verbesserte Sprachfunktion für ChatGPT vorgestellt, die erstaunlich lebensecht klingt. Diese neue Funktion, die in Echtzeit agiert, Unterbrechungen anpasst, kichern kann und emotionale Zustände anhand der User-Stimme erkennt, wird ab Dienstag für zahlende Nutzer ausgerollt. Zunächst wird die erweiterte Sprachfunktion einer kleinen Gruppe von “Plus”-Abonnenten zur Verfügung gestellt und im Herbst schließlich für alle Plus-Nutzer verfügbar sein.
Diese Weiterentwicklung könnte ChatGPT von einem bloßen Chatbot zu einem virtuellen Assistenten machen, der ähnlich wie ein Freund klingt und mit seinem Gegenüber interagiert. Dies könnte die Nutzung von ChatGPT auf ein neues Level heben und eine echte Konkurrenz zu bereits bestehenden Assistenten wie Alexa und Siri darstellen. Allerdings wirft die Einführung auch Fragen zur Zuverlässigkeit und zum Vertrauen in menschenähnliche Stimmen auf.
OpenAI hat die Einführung der erweiterten Sprachfunktion aufgrund zusätzlicher Sicherheitsprüfungen um einen Monat verschoben. In den letzten Monaten wurde die Funktion von über 100 Usern in 45 Sprachen und 29 Regionen getestet. Die Sprachfunktion wird auf vier voreingestellte Stimmen beschränkt sein, um potenziellen Missbrauch zu vermeiden, und bestimmte Anfragen blockieren, um Urheberrechtsverletzungen zu verhindern. Ein Unterschied zur Demo im Mai ist das Fehlen der Stimme, die Scarlett Johansson ähnelte, da OpenAI diese aufgrund einer Beschwerde der Schauspielerin entfernt hat.