Dauerlauschen? Wie die "Hey, Siri!"-Erkennung funktioniert
Einigen Nutzern ist die "Hey, Siri!"-Funktionalität des iPhones etwas suspekt. Über das Sprachkommando ist es möglich, Siri direkt zu aktivieren und dann mit einem Sprachbefehl fortzufahren. Die Betätigung des Home-Buttons lässt sich damit überspringen. Allerdings setzt dies natürlich voraus, dass Siri immer lauschen muss - was zur Sorge führen könnte, jedes Gespräch werde von Siri analysiert und es finde möglicherweise immer Datenaustausch mit anderen Servern statt. Apple hat sich jetzt noch einmal im Detail dazu geäußert, wie die Erfassung des Befehls genau funktioniert und will damit Sicherheitsbedenken zerstreuen. Im Motion-Koprozessor befindet sich demnach eine Spracherkennung, die permanent auf die beiden Worte "Hey, Siri" wartet. Sobald das Kommando registriert wurde, sieht Siri jede weitere Stimmeingabe als Sprachbefehl an.
Stark vereinfacht ausgedrückt passiert folgendes: Jener Detektor wandelt das erfasste akustische Muster, in kurze Zeithäppchen unterteilt, durchgehend in eine Wahrscheinlichkeits-Angabe um. Erst ab einem gewissen Schwellenwert wacht Siri auf und tritt in Aktion - zuvor findet keinerlei inhaltliche Analyse des Gehörten statt. Kommunikation mit Apples Siri-Servern wird erst dann initiiert, sobald die Stimmroutine eindeutig der Meinung ist, der Nutzer wolle nun Siri bedienen. Anhand der Muster-Analysen auf den Inhalt rückzuschließen, ist übrigens nicht möglich.
Wenn sich das errechnete Muster knapp unterhalb des definierten Wertes befindet, gibt es einen Zwischenzustand. Das System steigert dann die Empfindlichkeit, aktiviert jedoch noch keine Siri-Erkennung samt Server-Übertragung. Auf diese Weise steigert Apple die Nutzbarkeit der Erkennung erheblich. Der zweite Versuch, sehr undeutlich oder von lauten Störgeräuschen begleitet "Hey, Siri" zu sagen, hat so eine höhere Erfolgswahrscheinlichkeit. Damit es nun aber nicht zu oft zu falschem Alarm kommt, währt der "extra sensitive mode" nur sehr kurz.
Bekanntlich geht der Inbetriebnahme von "Hey, Siri" ein kurzes Stimmtraining voraus. Dies dient nicht nur dazu, unbefugten Zugriff zu verhindern, sondern in alltäglichen Situationen mit vielen Störgeräuschen ungewollte Aktivierung zu blockieren. Aus den Sprachschnipseln errechnet das System ein Referenzmuster, anhand dessen die Ermittlung des Schwellwerts erfolgt. Im optimalen Fall gibt es also nur eine einzige Person, deren Stimme und Stimmführung "Hey Siri" auszulösen vermag. Wer sich im Detail mit der "Hey, Siri"-Erkennung befassen möchte, findet bei Apple ein
umfangreiches Dokument vor.