Ausprobiert: MacWhisper verarbeitet, formatiert und übersetzt Gesprochenes
OpenAI ist mit seinem KI-Assistenten ChatGPT berühmt geworden. Den Wenigsten ist bekannt, dass dieselbe Firma ein LLM namens Whisper im Herbst 2022 als Open-Source-Projekt
veröffentlicht hat. Es ist auf die Umwandlung gesprochener in geschriebener Sprache optimiert. Aus einem großen Sprachmodell heraus gelingt eine zuverlässige Transkription in über hundert Sprachen – inklusive Satzzeichen. Das Projekt MacWhisper war eines der ersten, das auf Basis des Whisper-LLMs Audiomaterial komfortabel am Mac transkribierte. Über die Jahre wuchs der Funktionsumfang. Das jüngste Update erlaubt es, einen resultierenden Text in eine andere als die englische Sprache zu übersetzen.
MacWhisper lässt sich kostenlos nach Eingabe einer E-Mail-Adresse
herunterladen; um die App erstmalig zu öffnen, verschiebt man die App eigenhändig in den Programme-Ordner und startet sie von dort aus per Doppelklick. In der App laden Anwender die gewünschten whisper-Sprachmodelle herunter; diese bis zu 3 GByte großen Dateien legt MacWhisper unter "~/Library/Application Support/MacWhisper/models" ab. Je größer das Modell, desto weniger Fehler weisen Transkripte im Allgemeinen auf; dafür dauert die Umsetzung länger. Die übersichtliche Bedienoberfläche erleichtert den Import von Audio- und Video-Dateien; auch eine Diktierfunktion ist integriert. Das Resultat lässt sich nachträglich in der App korrigieren und anschließend in unterschiedlichsten Formaten – von Klartext über Untertitel-Formate bis hin zu Markdown – ausgeben.
Gute Qualität erfordert Pro-Version, Übersetzung einen APi-SchlüsselOhne kostenpflichtigen Einmalkauf ist man auf „small“ als maximale LLM-Größe beschränkt. „Medium“ sowie „Large“ (in Version 2 und 3) stehen nur zahlenden Kunden zur Verfügung. Dies gilt auch für weitere KI-Funktionen, die Anfragen über das Netz stellen und dafür einen API-Schlüssel benötigen. Anwender können diesen beim jeweiligen Anbieter abrufen, etwa OpenAI oder Anthropic. Häufig erfordern diese selbst für eine kostenlose Anmeldung zu Testzwecken das Hinterlegen einer Kreditkarte. Das gilt auch für die just integrierte Übersetzungsfunktion, für die ein API des Kölner Unternehmens
DeepL integriert wurde. Zusatzdienste laufen übrigens nicht mehr lokal ab, sondern übertragen Daten an Server der jeweiligen Dienste.
DeepL-Übersetzungen und andere KI-Integrationen benötigen einen API-Schlüssel – und den rücken Anbieter meist nur nach Angabe einer Kreditkartennummer heraus.
Schnelle Arbeit dank GPU-SupportMacWhisper nutzt nicht die offizielle Whisper-Implementation von
OpenAI, bei der die Skriptsprache Python zum Einsatz kommt. Stattdessen kommt die alternative Implementation „
whisper.cpp“ zum Einsatz, welche in C++ geschrieben wurde. Mit dieser gelingt eine schnelle Transkription auch ohne Nvidia-Grafikkarte. Am Apple-Silicon-Mac lastet MacWhisper vorrangig die Grafikkerne aus und schont so die CPU-Kerne – man kann prima am Mac weiterarbeiten, während im Hintergrund eine Transkription läuft. Dies stellt einen klaren Vorteil gegenüber dem kostenlosen Konkurrenten
Aiko dar, dessen Transkriptionsleistung einen M1-Mac deutlich ausbremst.
Nacharbeit meist erforderlichTrotz vieler Komfort-Features kann MacWhisper die üblichen Probleme von Whisper-Transkriptionen nicht beheben: Stille Passagen in Audioaufzeichnungen verleiten das LLM regelmäßig dazu, Inhalte zu halluzinieren – sie meint dann beispielsweise, Phrasen wie „Vielen Dank“ oder „Untertitel im Auftrag des ZDF für funk, 2017“ erkannt zu haben. Ebenfalls fehlt eine automatische Erkennung verschiedener Sprecher (Diarization). Die Podcast-Funktion zur Transkription mehrspuriger Aufzeichnungen wagt einen Schritt in diese Richtung, indem sie die Transkriptionen einzelner Tracks zu einem durchgehenden Text kombiniert; sie ist derzeit in Beta und bewies sich in einem kurzen Test als sehr fehleranfällig.
Mehrstimmige Texteingaben stellen für MacWhisper eine Herausforderung dar.