Warum Siri deutlich zuverlässiger wurde – im Englischen
Ein kürzlich erschienener Testzyklus auf Grundlage von 800 Fragen dokumentierte, dass Siri innerhalb eines Jahres deutlich an Zuverlässigkeit zulegte. Während im April 2017 nur 66,1 Prozent der Fragen richtig beantwortet wurden, waren es im Juli 2018 bereits 78,5 Prozent. Damit verkürzte Siri den Abstand auf Googles Sprachassistenten von knapp 13 auf 7 Prozentpunkte. Aus Apples aktuellem Machine Learning Journal geht hervor, was einer der Gründe für Verbesserungen war. Wer im deutschsprachigen Raum das Gefühl hat, bei Siri tue sich nur sehr wenig, hat mit der Einschätzung recht – denn Apples überarbeitete Erkennung bezieht sich momentan nur auf die englische Sprache. Im
ML Journal erklärt Apple, dass einer der Flaschenhälse eines jeden Spracherkennungssystems sei, kleinere und unbekanntere Unternehmen zu erfassen. Während es keine Probleme bei namhaften Ketten gebe, tun sich Sprachassistenten bei lokalen Geschäften oft schwer – vor allem, wenn es sich um Kunstnamen handelt, die dann auch noch im örtlichen Dialekt ausgesprochen werden.
Apples Ansatz dafür war, feingranulare geografische Zonen zu schaffen und für jeden dieser Bereiche ein bestimmtes akustisches Modell zu definieren. Betonung und Aussprache in den jeweiligen Dialekten bzw. Soziolekten sind erfasst und im System hinterlegt. Unter Einbeziehung der Position des Siri-Nutzers ist damit eine genauere Erkennung möglich. 169 sogenannter Geo-LMs (Geolocation-based Language Model) hat Apple dazu angelegt und deckt in den USA etwa 80 Prozent der Nutzer ab.
Apples Tests zeigten, dass die Rate der Fehlerkennungen spürbar zurückging, wenn vom allgemeinen Sprachmodell auf die geo-angepassten Routinen umgestellt wurde. Dennoch gebe es weiterhin viel Spielraum nach oben, so Apple. Man werde aber allgemeine MLs keinesfalls abschaffen, denn ansonsten gäbe es sofort Probleme bei Nutzern, die sich außerhalb ihres eigenen Sprachgebietes aufhalten.
Apples Verfahren ist darauf ausgelegt, überall zu funktionieren, denn die Methoden arbeiten sprachunabhängig. Allerdings muss für jede einzelne Sprache einzeln die aufwändige Arbeit der Sprachraum-Erfassung samt Implementierung geografisch bedingter, dialektaler Eigenheiten erfolgen. Ob und wann weitere Sprachen daher von den Verbesserungen profitieren, lässt sich schwer einschätzen.