ChatGPT kann ab sofort hören, sehen und sprechen

Die Entwicklung von Bildgeneratoren, welche auf maschinellem Lernen fußen, sowie großen generativen Sprachmodellen hat das Ende der Fahnenstange noch lange nicht erreicht. Das wird unter anderem an den kurzen Abständen deutlich, in denen die Hersteller neue Versionen veröffentlichen und zusätzliche Funktionen präsentieren. OpenAI beispielsweise kündigte jetzt mit DALL-E 3 die nächste Generation des hauseigenen Grafiksynthesemodells an, das dank neuer Trainingstechniken erheblich leistungsfähiger und vielseitiger sein soll (siehe ).

ChatGPT für iOS hört zu und antwortet in natürlicher Sprache
Zeitgleich spendiert das Unternehmen, an dem unter anderem Microsoft maßgeblich beteiligt ist, seinem KI-Chatbot namens ChatGPT eine Reihe zusätzlicher Features. Die mobilen Apps für iOS und Android lernen schon bald hören und sprechen, wie es im Blog von OpenAI heißt. Nutzer müssen demnach ihre Prompts nicht mehr zwingend eintippen, sondern können Fragen oder Befehle einfach mithilfe des Mikrofons ihres iPhones oder Android-Smartphones übermitteln. Die Spracherkennung erfolgt dabei durch Whisper, ein bewährtes System, das Gesprochenes in Text konvertiert. ChatGPT antwortet dann ebenfalls in natürlicher Sprache. OpenAI arbeitete nach eigenen Angaben mit professionellen Synchronsprechern zusammen, zur Verfügung stehen fünf generierte Stimmen mit den leicht poetisch anmutenden Bezeichnungen „Juniper“, „Sky“, „Cove“, „Ember“ und „Breeze“.

Bilder analysieren und mit dem Chatbot diskutieren
Darüber hinaus kann man ChatGPT ein oder mehrere Bilder zum Zweck der Analyse übermitteln. Der Chatbot untersucht dann wahlweise die gesamte Datei oder einen zuvor mit dem Zeichentool der App markierten Bereich. Die Ergebnisse lassen sich anschließend per Texteingabe oder Sprachsteuerung mit ChatGPT „diskutieren“ und somit vertiefen. Nützlich ist das neue Feature laut OpenAI in vielerlei Hinsicht, etwa um den Inhalt des Kühlschranks zu überprüfen oder komplexe Diagramme zu analysieren.

Neue Funktionen werden sukzessive ausgerollt
Spracherkennung und -ausgabe werden im Laufe der kommenden zwei Wochen nach und nach ausgerollt. Die vollständigen Voice-Features gibt es allerdings nur in den Apps für iOS und Android, Bildanalysen lassen sich auf allen unterstützten Plattformen vornehmen. Die neuen Funktionen stehen vorerst ausschließlich OpenAI-Kunden mit einem kostenpflichtigen Plus- oder Enterprise-Vertrag zur Verfügung, sollen aber schon bald auch anderen Nutzern zugänglich gemacht werden.

Kommentare

exi27.09.23 13:48

Dann sollten wir ihr/ihm schonmal einen Kindergartenplatz besorgen...

ruphi27.09.23 14:29

Langsam wird’s gruselig

Niederbayern27.09.23 14:30

Komisch weil Sprachaufzeichnung kann ich schon seit einiger Zeit und hab den Free Plan

-3

esc27.09.23 15:15

Wenn die Entwicklung so weitergeht, frage ich mich was in ein paar Jahre alles möglich sein wird.

Raziel128.09.23 13:03

ruphi

Langsam wird’s gruselig

Langsam ist gut, das geht wirklich wöchentlich massiv voran. Wenn man mal schaut was da draußen alles passiert.... Das hier Text to Speech nun nativ drin ist ist so gesehen nicht besonderes. Das haben andere auf ChatGPT basis schon vor langer Zeit integriert bis hin zu Mods für Skyrim. Da gibt es schon viel viel wilderes da draussen wie zuletzt ein System das gesprochenes in Echtzeit übersetzt im Video, aber gleichzeitig das Video so manipuliert, das deine Mimik mit der Aussprache übereinstimmt. Da die Aussprache nahezu perfekt ist und sich natürlich hauch stimmlich komplett am Original richtet ist nicht mehr erkennbar welches nun das echte original video ist und welche Sprache der gefilmte nun eigentlich wirklich gesprochen hat.

ChatGPT kann ab sofort hören, sehen und sprechen

Kommentare

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.