Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?
Forum>Software>KI im Einsatz: Whisper

KI im Einsatz: Whisper

ThorsProvoni
ThorsProvoni10.02.2314:14
Whisper ist ein automatisches Spracherkennungssystem, das von OpenAI (genau, die Firma, die mit ChatGPT grade Schlagzeilen schreibt) entwickelt wurde (oder besser gesagt: trainiert) und mit dem man Audiodateien transkribieren kann. Und das ganze ist Open Source, d.h. man kann es sich von Github laden und installieren.

Ist aber nicht wirklich trivial, zum Glück gibt es im AppStore "Whisper Transcription", was man sich kostenlos laden kann. Damit hat man dann das Tiny und das Base Model, für € 17,99 werden die Medium und Large Models frei geschaltet. Für einen Test habe ich einen Text über Akkutechnik vorgelesen.
Base Model
Aber nun musst du noch erklärt werden, wie das DMT im Akku entsteht. Denn DMT gehört nicht zu den Allitiven und eigentlich sollte kein Stoff, der beim Baudes Akkus verwendet wird, zur Bildung von DMT führen. Dabei halt ist, dass die Experimente nicht mit Zellen aus dem Labor und der Lomm, sondern kommerziell hergestaltet Zellen vom chinesischen Hersteller Liefun gekauft wurden, die bei der Herstellung aber nicht mit Elektrolyt gefüllt wurden.
Best Accuracy (Large)
Aber nun musste noch geklärt werden, wie das DMT im Akku entsteht. Denn DMT gehört nicht zu den Additiven und eigentlich sollte kein Stoff, der beim Bau des Akkus verwendet wird, zur Bildung von DMT führen. Dabei half es, dass die Experimente nicht mit Zellen aus dem Labor unternommen, sondern kommerziell hergestellte Zellen vom chinesischen Hersteller Lifun gekauft wurden, die bei der Herstellung aber nicht mit Elektrolyt gefüllt wurden.

Während das kleinere Modell noch eine Menge Fehler produzierte, hat das größere Modell den Text mit 100%iger Genauigkeit erkannt (sogar den Namen des chinesischen Herstellers).

Ach ja: ein M1 oder M2-Prozessor beschleunigt die Erkennung ungemein, und die Erkennung und Verarbeitung laufen komplett lokal ab, d.h. es werden keine Daten zu einem Server hochgeladen. Viel Spaß beim Ausprobieren!
+12

Kommentare

MetallSnake
MetallSnake10.02.2314:19
Gibts hier in einfach und gratis: MacWhisper

Die einfache Version kann man sich für 0€ kaufen, die Pro Version dann mindestens 11€.

Damit kann man Audio Dateien transkribieren lassen. Oder auch Videos und sich dafür Untertitel Dateien erzeugen lassen.
„Das Schöne an der KI ist, dass wir endlich einen Weg gefunden haben, wie die Wirtschaft weiter wachsen kann, nachdem sie jeden Einzelnen von uns getötet hat.“
+3
ThorsProvoni
ThorsProvoni10.02.2314:42
Stimmt, das ist das selbe Programm, aber direkt von der HomePage des Entwicklers. Ohne "Pro" ist auch die Version im AppStore kostenlos.

Danke für den Hinweis!
0
Daishima
Daishima11.02.2310:50
MacWhisper (ohne Pro) an MBP M1 2020, 16GB RAM, 13.2 ausprobiert:

- m4a werden nicht geladen (obwohl so beschrieben); Programm stürzt ab; Umwandlung in mp3 und alles funktioniert
- 60min Interview (mittlere Sprachqualität) wird in ca 4min (Modus: transkribiert; wenig Nachbereitung erforderlich (geschätzte Zeit: max. 10min)
- es werden keine Sprecher:innenwechsel erkannt (evtl. in der Pro Version?)
- spezifische deutsche Fachbegriffe werden erkannt

In meinem Arbeits/Forschungsfeld muss ich pro Semester ca. 30 Interviews (30 - 120min) transkribieren (lassen). Meist transkribiere ich 3-5 Interviews selbst und übergebe den Rest an entsprechende Dienstleister mit relativ hohen Kosten. Die dort angebotenen maschinellen Übersetzungen kommen an die Qualität von MacWhisper (ohne Pro) nicht heran (als Dienstleister würde ich jetzt einfach MacWhisper Pro kaufen).
Meine Arbeit reduziert sich mit dieser Software um viele Stunden und ich kann mir kaum vorstellen, welche Möglichkeiten sich in zwei bis drei Jahren ergeben.
+11
Daishima
Daishima11.02.2310:50
Daishima
MacWhisper (ohne Pro) an MBP M1 2020, 16GB RAM, 13.2 ausprobiert:

- m4a werden nicht geladen (obwohl so beschrieben); Programm stürzt ab; Umwandlung in mp3 und alles funktioniert
- 60min Interview (mittlere Sprachqualität) wird in ca 4min transkribiert; wenig Nachbereitung erforderlich (geschätzte Zeit: max. 10min)
- es werden keine Sprecher:innenwechsel erkannt (evtl. in der Pro Version?)
- spezifische deutsche Fachbegriffe werden erkannt

In meinem Arbeits/Forschungsfeld muss ich pro Semester ca. 30 Interviews (30 - 120min) transkribieren (lassen). Meist transkribiere ich 3-5 Interviews selbst und übergebe den Rest an entsprechende Dienstleister mit relativ hohen Kosten. Die dort angebotenen maschinellen Übersetzungen kommen an die Qualität von MacWhisper (ohne Pro) nicht heran (als Dienstleister würde ich jetzt einfach MacWhisper Pro kaufen).
Meine Arbeit reduziert sich mit dieser Software um viele Stunden und ich kann mir kaum vorstellen, welche Möglichkeiten sich in zwei bis drei Jahren ergeben.
0
Weia
Weia11.02.2310:55
Daishima
Daishima
Meine Arbeit reduziert sich mit dieser Software um viele Stunden und ich kann mir kaum vorstellen, welche Möglichkeiten sich in zwei bis drei Jahren ergeben.
Automatisch Dubletten erkennen?

SCNR
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
+4
Daishima
Daishima11.02.2313:58
Weia
Automatisch Dubletten erkennen?

SCNR

Klappt sicher auch bald
Keine Ahnung, wie das passiert ist... Sehe aber jetzt, dass in Text 1 eine Korrektur nicht durchgeführt wurde, welche dann in der Dublette vorhanden ist.
+1
xcomma11.02.2316:25
MetallSnake
MacWhisper

Damit kann man Audio Dateien transkribieren lassenlassen.
Sehe ich das richtig, dass die Transkription offline geschieht? Das wäre einfach nur wow Hätte ich gut gebrauchen können, da das Benutzen bzw. Hochladen von den Audiodateien auf "Fremdserver" bei uns nicht erlaubt war.
Dann ist der Markt für diverse Transkribierungs-Lösungen und -Dienstleister ja schon mal gut torpediert damit
+1
MrChad11.02.2317:35
Daishima
- ... Sprecher:innen...
aha ...
Daishima
... Dienstleister ...
so überhaupt keine Frauen dabei?

Wenn schon, denn schon. Am liebsten gar nicht.
-16
Daishima
Daishima12.02.2310:47
@MrChad
Sprecher:innen = bei einer Gruppe von Personen
Dienstleister = abstrakte Organisation oder Firma
Dienstleister:innen = wenn von den Beschäftigten der abstrakten Organisation die Rede ist

Mir fällt auf, dass hauptsächlich von Gegner:innen des Genderns (mehr als nur die Sichtbarmachung von Frauen) immer wieder diese Diskussion in den Foren geführt wird. Wenn diejenigen, welche gendern, auf jeden Beitrag in dem nicht gegendert wird, mit einem solchen Beißreflex reagieren würden, wäre hier keine Sach/Fachdiskussion mehr möglich.
+10
ssb
ssb12.02.2312:29
Danke Daishima.
Sprache entwickelt sich - was vor Jahrzehnten fremd klang ist heute normal. Ob sich gendergerechte Sprache (egal wie umgesetzt) durchsetzt, wird die Zeit zeigen.
Bis dahin gilt: wer es mag, der soll es tun. Wer es nicht mag, soll es lassen. Es macht keinen Sinn, die andere Seite zu überzeugen oder über sie zu lästern.
+4
almdudi
almdudi12.02.2315:06
Daishima
mehr als nur die Sichtbarmachung von Frauen
Ist das jetzt subtile Kritik am sexistischen Schleierzwang reaktionärer Gottesstaaten?
-4
Daishima
Daishima13.02.2313:05
On Topic:
Ich hatte heute die Gelegenheit, die Pro-Version auszuprobieren: dieselbe Datei wie bei der Nichtpro-Version und dasselbe Setting. Die Erkennungsrate ist absolut verblüffend und liegt bei nahezu 99 Prozent - auch bei spezifischen Fachbegriffen (Psychohygiene, Familienwohngruppen usw.). Der Ortsname "Gohlis" wurde mit "Golis" transkribiert, aber da die Interviews anonymisiert werden, stellt das kein Problem dar.
Der M1 benötigt für die Datei (ca. 1h) im höchsten Erkennungs-Modus jetzt ca. 35min, was aber vernachlässigbar ist, wenn der Mac dann über Tag/Nacht einfach mal 30h Interview in ca. 20h mit dieser fantastischen Erkennungsleistung bearbeitet. Vor allem, da ich während der Transkription normal weiterarbeiten konnte.
Einige Beispiele:
Einfache Version: Anumimisierung, Ursprungsgedam, die Negemeine zu GNBH, Arbeitsgräbien, alsziehungsberatung, Limengart Masken.
Pro Version: Anonymisierung, Ursprungsgedanke, die gemeinnützige GmbH, Arbeitsgremien, Erziehungsberatung, Livingard-Masken (sic).

Vom Aktivitätsmonitor habe ich keine Ahnung (wie die Werte zu interpretieren sind), daher nur zur Info: CPU knapp 400%; Speicher ca. 5,5 GB und 8 Threads. Da zwischendurch das Internet ausfiel (bin irgendwo im Frankenwald) und die Transkription weiterlief, bin ich mir sicher, dass es sich um eine offline-Transkription handelt.
+5
Weia
Weia13.02.2313:33
Daishima
Ich hatte heute die Gelegenheit, die Pro-Version auszuprobieren: dieselbe Datei wie bei der Nichtpro-Version und dasselbe Setting. Die Erkennungsrate ist absolut verblüffend und liegt bei nahezu 99 Prozent - auch bei spezifischen Fachbegriffen (Psychohygiene, Familienwohngruppen usw.).
Danke für die Erfahrungswerte!
Vom Aktivitätsmonitor habe ich keine Ahnung (wie die Werte zu interpretieren sind), daher nur zur Info: CPU knapp 400%;
Das heißt, dass 4 von Deinen n Prozessorkernen mit dem Programm ausgelastet sind. Das heißt, der Rechner wird beansprucht, aber nicht über die Maßen.
Speicher ca. 5,5 GB und 8 Threads.
Auch harmlos.
Da zwischendurch das Internet ausfiel (bin irgendwo im Frankenwald) und die Transkription weiterlief, bin ich mir sicher, dass es sich um eine offline-Transkription handelt.
Da würde mich dann die Programmgröße ja eigentlich am meisten interessieren. Denn das heißt ja, dass das gesamte Sprachmodell mit seinen Abermilliarden eingelesenen Sätzen, das diese Wundertaten vollbringt, lokal auf Deinem Rechner abgespeichert sein muss.
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
+3
marm13.02.2313:34
Daishima
Ich hatte heute die Gelegenheit, die Pro-Version auszuprobieren: dieselbe Datei wie bei der Nichtpro-Version und dasselbe Setting. Die Erkennungsrate ist absolut verblüffend und liegt bei nahezu 99 Prozent
Bei einem Test mit der Sprachaufnahme (ohne Pro) war die Erkennung von dem, was ich gesagt habe, eher unbrauchbar.
Mit welcher Software nimmst Du auf? Mit Whisper selbst oder gibt es geeigneteres? Die Pro-Version würde ich auf gut Glück kaufen, wenn endlich Konferenzaufzeichnungen damit funktionieren.
0
Daishima
Daishima13.02.2318:12
marm
Daishima
Ich hatte heute die Gelegenheit, die Pro-Version auszuprobieren: dieselbe Datei wie bei der Nichtpro-Version und dasselbe Setting. Die Erkennungsrate ist absolut verblüffend und liegt bei nahezu 99 Prozent
Bei einem Test mit der Sprachaufnahme (ohne Pro) war die Erkennung von dem, was ich gesagt habe, eher unbrauchbar.
Mit welcher Software nimmst Du auf? Mit Whisper selbst oder gibt es geeigneteres? Die Pro-Version würde ich auf gut Glück kaufen, wenn endlich Konferenzaufzeichnungen damit funktionieren.
Früher mit Aufnahmegeräten (Sony) und seltsamen Dateiformaten, aktuell ganz einfach mit iPhone und der App Sprachmemo. Wenn es aber so gut mit der Spracherkennung klappt, werde ich wieder in professionellere Aufnahmesettings investieren.
+3
Daishima
Daishima13.02.2318:14
Weia
Daishima
Da zwischendurch das Internet ausfiel (bin irgendwo im Frankenwald) und die Transkription weiterlief, bin ich mir sicher, dass es sich um eine offline-Transkription handelt.
Da würde mich dann die Programmgröße ja eigentlich am meisten interessieren. Denn das heißt ja, dass das gesamte Sprachmodell mit seinen Abermilliarden eingelesenen Sätzen, das diese Wundertaten vollbringt, lokal auf Deinem Rechner abgespeichert sein muss.
Programmgröße bei mir: 4,94 GB
+3
Weia
Weia13.02.2318:49
Daishima
Programmgröße bei mir: 4,94 GB
Ah ja. Das ist einerseits eine Hausnummer; das bringt bei mir nur ein Programm auf die Waage, Mathematica – auch sowas wie das ganze Weltwissen in einer App, aber halt doch nur das mathematische.

Andererseits ist das gemessen an dem, was drin ist, irgendwie winzig. 😶
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
+1
almdudi
almdudi13.02.2320:00
marm
Bei einem Test mit der Sprachaufnahme (ohne Pro) war die Erkennung von dem, was ich gesagt habe, eher unbrauchbar.
Das kann natürlich auch an der Aussprache liegen, muß nicht am Mikro liegen (plus Umgebungsgeräuschen, Hall usw.).
Ist nicht persönlich gemeint, aber ein klein wenig Nuscheln, dazu ein klein wenig Dialekteinfärbung, vielleicht noch schnelles Sprechen (und dann vielleicht noch zweitklassige Technik...) - man sollte nicht mehr Verständnis erwarten von einem Programm als man es von einem Nicht-Muttersprachler erwartet, der/die gut bis sehr gut deutsch spricht, aber eben noch nicht an regionale Gewohnheiten angepasst ist.

@Weia: Da steckt halt eine Menge drin im Programm - was auch dafür spricht, daß die Erkennung offline funktioniert.
Wird das Programm denn in verschiedenen Version für verschiedene Sprachen angeboten? Schließlich spuckt es ja keine Texte in IPA-Lautschrift aus sondern muß sich an der jeweiligen Orthografie orientieren.
+1
Weia
Weia13.02.2320:19
almdudi
@Weia: Da steckt halt eine Menge drin im Programm - was auch dafür spricht, daß die Erkennung offline funktioniert.
Klar. Mein Erstaunen gilt ja der Tatsache, dass das Programm nicht viel größer ist. Ich hätte mich über Terabyte nicht gewundert …
Wird das Programm denn in verschiedenen Version für verschiedene Sprachen angeboten?
Laut Whisper-Website unterstützt das Programm 100 Sprachen zugleich.
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
0
marm13.02.2320:20
almdudi
Ist nicht persönlich gemeint, aber ein klein wenig Nuscheln, dazu ein klein wenig Dialekteinfärbung, vielleicht noch schnelles Sprechen (und dann vielleicht noch zweitklassige Technik...) -
Ok, ich versuche es mal ohne Kaugummi 😉

Die Recorderfunktion oder die mittlere Einstellung am Macbook Air ist mäßig (Eifung von Wodafon).
Wirklich gut ist die höchste Qualitätsstufe von Pro bei der Erkennung von zuvor aufgezeichneten Audiodateien. Getestet mit Messenger-Sprachnachrichten.

Jetzt benötige ich Tipps zur Konferenzaufnahme: die Software Piezo? oder Aufnahme + Mikrofon am iPhone?
+1
Weia
Weia13.02.2320:37
marm
Wirklich gut ist die höchste Qualitätsstufe von Pro bei der Erkennung von zuvor aufgezeichneten Audiodateien.
Das ergibt technisch nicht wirklich Sinn, denn technisch gibt es ja keinen Unterschied zwischen zuvor aufgezeichneten und Live-Audio-Daten; letztere sind technisch gesehen ja genauso aufgezeichnet, halt lediglich Millisekunden und nicht Wochen vorher.
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
+1
marm13.02.2320:46
Weia
Das ergibt technisch nicht wirklich Sinn, denn technisch gibt es ja keinen Unterschied zwischen zuvor aufgezeichneten und Live-Audio-Daten; letztere sind technisch gesehen ja genauso aufgezeichnet, halt lediglich Millisekunden und nicht Wochen vorher.
Ja, Du hast recht. Bei der Live-Aufnahme kann ich die Qualitätsstufe der Erkennung vorher einstellen. Das Ergebnis ist auf höchster Stufe dann auch hier deutlich besser. Die Erkennung erfolgt aber nicht live, sondern im Nachhinein.
+1
Coheed84816.02.2309:29
Ich schalte mich auch mal ein, da ich von der Lösung sehr angetan bin, insbesondere für unseren geplanten Einsatz im Büro. Gleichwohl hat in einem ersten Test mit vorhandenen Audiodateien (aus der Sprachmemo App im iPhone) die kostenfreie Variante von MacWhisper nicht überzeugen können.

Und was ich hier bisher zu den qualitativen Unterschieden von Gratis zu Pro gelesen habe, scheint das ja wirklich mehr oder minder ein Unterschied wie Tag und Nacht zu sein.

Aber um das noch einmal zu verifizieren und anhand unseres use case hier zu schildern:

Wir würden es als eine Art "Diktat-Transskribbier-Lösung" einrichten wollen. Da wir hier nur äußerst selten noch diktieren, sind alle am Markt erhältlichen Diktier-Transskribbier-Lösungen a) zu teuer und b) einfach überdimensioniert. Daher ist bei uns nun folgendes angedacht: Das Diktat wird als Sprachmemo auf dem iPhone erstellt (iCloud Sync der Sprachdateien ist aus datenschutzgründen aus) und sodann direkt per Mail an das Sekretariat gesendet. Dort läuft dann MacWhisper Pro und aus dem gesprochenen Wort wird geschriebenes. Im Nachgang wird dann einmal die Form angepasst und fertig.

Nutzt hier jemand MacWhisper Pro in diesem oder vergleichbarem Szenario?

Und: der Entwickler empfiehlt Macs mit M-Prozessoren. Wir nutzen hier noch Macs ohne (MBP aus 2018 und MBA aus 2017) Bei meinem Test mit der Gratis Version hat es schon lange gedauert und der Lüfter auf dem MBA lief. Parallel konnte man noch arbeiten. Habt ihr Erfahrungen mit MacWhisper Pro und Intel-Macs?

Danke im Voraus für euren Input!
+1
Nebula
Nebula16.02.2309:40
marm
almdudi
Ist nicht persönlich gemeint, aber ein klein wenig Nuscheln, dazu ein klein wenig Dialekteinfärbung, vielleicht noch schnelles Sprechen (und dann vielleicht noch zweitklassige Technik...) -
Ok, ich versuche es mal ohne Kaugummi 😉

Die Recorderfunktion oder die mittlere Einstellung am Macbook Air ist mäßig (Eifung von Wodafon).
Wirklich gut ist die höchste Qualitätsstufe von Pro bei der Erkennung von zuvor aufgezeichneten Audiodateien. Getestet mit Messenger-Sprachnachrichten.

Jetzt benötige ich Tipps zur Konferenzaufnahme: die Software Piezo? oder Aufnahme + Mikrofon am iPhone?
Warum nicht die Aufnahmefunktion der Konferenzlösung selbst nehmen? Teams hat das, Zoom auch. Dann bekommen auch alle mit, das aufgezeichnet wird. Aber das Einverständnis muss man ja ohnehin einholen. Heimliche Mitschnitte sind strafbar. Mit Piezo würde das gehen, oder du nimmst gleich Rewind.ai, das macht gleichzeitig durchsuchbare Screenshots.
„»Wir werden alle sterben« – Albert Einstein“
+2
marm16.02.2310:13
Nebula
Mit Piezo würde das gehen, oder du nimmst gleich Rewind.ai, das macht gleichzeitig durchsuchbare Screenshots.
Danke für die Tipps. Ich probiere jetzt ein mobiles USB-Audiointerface mit Mikrofon von Zoom (H1N). Das kann ich dann an den Rechner anschließen oder auch als Diktiergerät nutzen.
Bei der Recherche bin ich noch auf ein Kuriosum gestoßen: Olympus TP-8. Das ist ein Mikrofon, welches wie ein Ohrhörer ins Ohr gesteckt wird. So können dann Telefonate aufgezeichnet werden.
0
pekett
pekett16.02.2315:16
Das von Coheed848 angesprochene Thema der Einsatz als Diktierlösung würde mich auch sehr interessieren.

Lassen sich denn auch "live" gesprochene Texte transkribieren? Also längere Mails oder andere Texte diktieren? Die in macOS eingebaute Diktierlösung empfinde ich eher als Notlösung...
0
Nebula
Nebula16.02.2316:24
Ja, der Inhalt gelangt aber immer erst in die App und du musst es herauskopieren. Probiere die App doch einfach mal aus, kostet ja nix.
„»Wir werden alle sterben« – Albert Einstein“
0
ted-23616.02.2321:10
Alles mit "*" oder ":" sind halt Rechtschreibfehler und somit inakzeptabel.
-16
Weia
Weia17.02.2300:05
ted-236
Alles mit "*" oder ":" sind halt Rechtschreibfehler und somit inakzeptabel.
Inwiefern enthält 2001: Odyssee im Weltraum Rechtschreibfehler? Und inwiefern sind Rechtschreibfehler inakzeptabel bzw. andersrum gefragt: Was suchst Du dann auf MacTechNews?
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
+1
Nebula
Nebula17.02.2308:28
ted-236
Alles mit "*" oder ":" sind halt Rechtschreibfehler und somit inakzeptabel.
Falsche Anführungszeichen sind ebenfalls inakzeptabel. Und Schwazweißdenken sowieso.
„»Wir werden alle sterben« – Albert Einstein“
+2
rosss17.02.2310:21
Daishima
Programmgröße bei mir: 4,94 GB

Ich habe die normale (kostenlose) Version von der Entwicklerseite (s.o.) geladen, die hat nur 233 MB.

Ich nehme an, 5GB hat dann die (in-App) Pro-Version.
0
penumbra17.02.2310:29
Hallo!
Weiß jemand, ob geplant ist, das als "richtige" Diktatlösung anzubieten, also Live-Spracherkennung, so wie bei Dragon?
Das wäre echt mal eine sehr sinnvolle Sache auf dem Mac - die in macOS eingebaute Spracherkennung ist leider im beruflichen Alltag nicht zu gebrauchen.
„enjoy life in full trains“
0
Coheed84817.02.2311:03
penumbra
Hallo!
Weiß jemand, ob geplant ist, das als "richtige" Diktatlösung anzubieten, also Live-Spracherkennung, so wie bei Dragon?
Das wäre echt mal eine sehr sinnvolle Sache auf dem Mac - die in macOS eingebaute Spracherkennung ist leider im beruflichen Alltag nicht zu gebrauchen.

Vom Ding her müsste das bereits jetzt funktionieren, jedenfalls hat es bei mir geklappt: MAcWhisper App laufen lassen, dann als "Quelle" das Mikro auswählen und frei drauf los... In der Gratis-Version war die Spracherkennung aber wirklich gruselig (über das eingebaute Mic im MBA)... Wenn man fertig ist, dann das transkribierte per Copy&Paste wohin auch immer und bei bedarf entsprechend formatieren.

Und genau diesen Ansatz finde ich super praktisch und aktuell preislich absolut nicht zu schlagen im Vergleich zu allen kommerziellen Diktatlösungen (Dragon, Philips Speech etc.). Gerade wenn man es nur sporadisch nutzt, ist diese DIY-Lösung unschlagbar, sofern eben doch brauchbar. Mit den Intel-Macs dauert es ganz schön lange... 54min Sprachmemo habe ich bei 37% nach einer guten Stunde abgebrochen...
0
Schens
Schens17.02.2311:09
Vielen Dank:innen! Sofort gekauft und ausprobiert. Sensationelle Erkennungsrate!
+1
Schens
Schens17.02.2311:11
Die Downloads und ihre Größen.

+2
pekett
pekett17.02.2312:05
Als Diktatlösung erscheint es mir nach einem ersten Test nur eingeschränkt nutzbar zu sein. Zumindest mit der Basisversion wurden diktierte Satzzeichen (erstens KOMMA zweitens PUNKT) natürlich nicht als solche eingefügt, sondern als Wort "erkannt". Diktiere ich Satzzeichen nicht mit, werden diese nach meinem ersten Eindruck automatisch eingefügt, was nicht immer klappt. Wie gesagt, mein Test bezieht sich auf die kostenlose Basisversion.

Ferner vermisse ich jegliche optisches Feedback der Erkennung. Weiland bei Dragon Dictate wurde der erkannte Text in Echtzeit angezeigt, was ich persönlich beim Diktieren sehr hilfreich finde, gerade wenn man nur gelegentlich Texte diktiert. Eine professionelle Diktatlösung wie Dragon Dictate bietet darüber hinaus die Steuerung per Sprachbefehl, z.B zur Textformatierung und der Korrektur von falsch erkannten Passagen.

BTW: Bei allem aktuellen Hype um diese und andere Lösungen: ganz so neu sind solche Lösungen nicht, ich verwende seit einiger Zeit DeepL. Die Mac-Version ist sehr praktisch, zu übersetzenden Text selektieren, gewählte Tastenkombination (bei mir Command + C + C) drücken und der Text wird in die App kopiert und automatisch übersetzt (zugegebenermaßen Online).
0
Weia
Weia17.02.2312:30
Schens
Vielen Dank:innen! Sofort gekauft und ausprobiert. Sensationelle Erkennungsrate!
Auf welcher Hardware hast Du es probiert und wie sieht es da mit der Performance aus?
Schens
Die Downloads und ihre Größen.
Danke, das bestätigt definitiv, dass die Sprachmodelle lokal gespeichert werden. Die knappen 5 GB finde ich mit das Sensationellste an der Geschichte. Der Weltwortschatz in 100 Sprachen in einer Datei so groß wie ein einzelnes HD-Movie.
„“I don’t care” is such an easy lie. (The Warning, “Satisfied”)“
+1
Schens
Schens17.02.2315:42
Weia
Auf welcher Hardware hast Du es probiert und wie sieht es da mit der Performance aus?

macStudio mit M1 Ultra mit 64GB und Ventura. Geht alles sehr flüssig. Die Zeit, die ich mir über das nichtkorrigieren von Worten wie "Desoxyribpnukleinsäuren" spare geht durch die Korrektur der Interpunktion wieder drauf. Trotzdem: Für knapp einen zehner ein No-Brainer.
0

Kommentieren

Diese Diskussion ist bereits mehr als 3 Monate alt und kann daher nicht mehr kommentiert werden.