ChatGPT kann ab sofort hören, sehen und sprechen
Die Entwicklung von Bildgeneratoren, welche auf maschinellem Lernen fußen, sowie großen generativen Sprachmodellen hat das Ende der Fahnenstange noch lange nicht erreicht. Das wird unter anderem an den kurzen Abständen deutlich, in denen die Hersteller neue Versionen veröffentlichen und zusätzliche Funktionen präsentieren. OpenAI beispielsweise kündigte jetzt mit DALL-E 3 die nächste Generation des hauseigenen Grafiksynthesemodells an, das dank neuer Trainingstechniken erheblich leistungsfähiger und vielseitiger sein soll (siehe
).
ChatGPT für iOS hört zu und antwortet in natürlicher SpracheZeitgleich spendiert das Unternehmen, an dem unter anderem Microsoft maßgeblich beteiligt ist, seinem KI-Chatbot namens ChatGPT eine Reihe zusätzlicher Features. Die mobilen Apps für iOS und Android lernen schon bald hören und sprechen, wie es im
Blog von OpenAI heißt. Nutzer müssen demnach ihre Prompts nicht mehr zwingend eintippen, sondern können Fragen oder Befehle einfach mithilfe des Mikrofons ihres iPhones oder Android-Smartphones übermitteln. Die Spracherkennung erfolgt dabei durch Whisper, ein bewährtes System, das Gesprochenes in Text konvertiert. ChatGPT antwortet dann ebenfalls in natürlicher Sprache. OpenAI arbeitete nach eigenen Angaben mit professionellen Synchronsprechern zusammen, zur Verfügung stehen fünf generierte Stimmen mit den leicht poetisch anmutenden Bezeichnungen „Juniper“, „Sky“, „Cove“, „Ember“ und „Breeze“.
Bilder analysieren und mit dem Chatbot diskutierenDarüber hinaus kann man ChatGPT ein oder mehrere Bilder zum Zweck der Analyse übermitteln. Der Chatbot untersucht dann wahlweise die gesamte Datei oder einen zuvor mit dem Zeichentool der App markierten Bereich. Die Ergebnisse lassen sich anschließend per Texteingabe oder Sprachsteuerung mit ChatGPT „diskutieren“ und somit vertiefen. Nützlich ist das neue Feature laut OpenAI in vielerlei Hinsicht, etwa um den Inhalt des Kühlschranks zu überprüfen oder komplexe Diagramme zu analysieren.
Neue Funktionen werden sukzessive ausgerolltSpracherkennung und -ausgabe werden im Laufe der kommenden zwei Wochen nach und nach ausgerollt. Die vollständigen Voice-Features gibt es allerdings nur in den Apps für iOS und Android, Bildanalysen lassen sich auf allen unterstützten Plattformen vornehmen. Die neuen Funktionen stehen vorerst ausschließlich OpenAI-Kunden mit einem kostenpflichtigen Plus- oder Enterprise-Vertrag zur Verfügung, sollen aber schon bald auch anderen Nutzern zugänglich gemacht werden.