Siri trotz lauter Umgebungsgeräusche: Wie Apple technische Herausforderungen meistert
Eine funktionierende Spracherkennung auf dem HomePod zu realisieren, ist technisch erheblich schwieriger als auf iPhone oder iPad. Ein Grund dafür ist die Tatsache, dass der Sprecher mit dem smarten Lautsprecher in aller Regel aus einiger Entfernung kommuniziert. Darüber hinaus können Geräusche, Musik und Gespräche sowie Echoeffekte und Nachhall die Sprachbefehle an den HomePod überlagern. Um diesen Herausforderungen zu begegnen, setzt Apple eine ganz Reihe ausgefeilter Signalverarbeitungsprozesse und digitaler Filter ein. Die technischen Einzelheiten erklärt das Unternehmen jetzt in einem
Blogpost.
A8-Prozessor "lauscht" permanentDer HomePod verfügt über sechs Mikrofone und einen A8-Prozessor, der die Verarbeitung der Audiosignale übernimmt. Dieser "lauscht" permanent und passt seine digitalen Mehrkanalfilter ständig an die Geräuschkulisse des Raums und die Bewegungen der Sprecher an. Dabei lernt das System, erwünschte von unerwünschten Signalen zu unterscheiden und letztere so gut wie möglich auszublenden.
Blockdiagramm der Signalverarbeitungskette auf dem HomePod
Lautsprecher behindern MikrofoneEine der größten Herausforderungen der Spracherkennung auf dem HomePod ist die Nähe der Lautsprecher zu den Mikrofonen. Für diese kann auf dem Gerät abgespielte Musik bis zu viermal lauter sein als die Befehle des Sprechers. Dem Problem begegnet Apple unter anderem mit einer Mehrkanal-Echo-Ausblendung ("Multichannel Echo Cancellation"). Darüber hinaus werden Techniken wie zum Beispiel "Mask-Based Echo Suppression" (Referenzbasierte Echo-Unterdrückung), "Mask-Based Noise Reduction" (Referenzbasierte Geräuschreduzierung) und Nachhallentfernung eingesetzt.
Deep Learning im HintergrundDiese und weitere digitale Techniken sind eng mit dem "Deep Learning" in einem neuronalen Netz auf Apples Servern verknüpft. Die Künstliche Intelligenz (KI) lernt ständig hinzu und optimiert dadurch die digitalen Signalverarbeitungen und Filtersysteme des HomePod. Im Rahmen der Entwicklung testete und trainierte Apple die Spracherkennung in groß angelegten Versuchen in wechselnden Umgebungen und mit vielfältigen akustischen Szenerien. Dabei wurde nicht nur großer Wert auf die Präzision der Spracherkennung gelegt, sondern auch auf eine gute Performance des HomePod sowie der im Hintergrund arbeitenden Künstlichen Intelligenz.
Audio-Beispiele und LiteraturhinweiseDer Blogpost enthält zahlreiche mathematische Erläuterungen, Tabellen und einige Audio-Beispiele. Darauf im Einzelnen einzugehen, würde den Rahmen dieses Artikels sprengen. Wer sich für weiterführende Informationen zu den technischen Grundlagen interessiert, findet am Ende von Apple Blogposts eine umfangreiche Liste mit Literaturhinweisen.