Sicherheitslücke Vision Pro: Tastatureingabe war durch Augenbewegung abzulesen
Apples Spatial-Computing-Headset setzt sich von der Konkurrenz unter anderem dadurch ab, dass Anwender keine speziellen Controller in die Hand nehmen müssen. Kameras und Näherungssensoren der Vision Pro interpretieren Hand- und Augenbewegungen, um Handlungswünsche der Anwender zu erkennen und umzusetzen. In einer Videokonferenz könnte dies jedoch die Tastatureingaben verraten, wie Wissenschaftler der Texas Tech University nachweisen konnten. Unter dem Namen
GAZEsploit veröffentlichten sie, wie sie aus einer Videokonferenz-Übertragung per Vision Pro Tastatureingaben aus den Augenbewegungen des virtuellen Gesichtsabbilds (Persona) entschlüsseln konnten.
Um die Augenbewegungen zu analysieren, erzeugten die Forscher ein Recurrent Neural Network (RNN). Dieses trainierten sie mit den Aufnahmen und Tastatureingaben von 30 Probanden. Bei anschließenden Tests konnten sie eine für den limitierten Ansatz recht hohe Trefferquote erreichen: Für die häufigsten fünf Buchstaben erreichten sie eine Trefferquote von 100 Prozent. In einem 44-sekündigen Video zeigen sie, wie ihre Software Augenbewegungen erfolgreich in Tastatureingaben zurückübersetzt.
Sicherheitslücke in VisionOS 1.3 behobenDie Wissenschaftler meldeten ihre Entdeckung im Rahmen eines Responsible-Disclosure-Verfahrens; Apple nahm diese auf und behob sie mit dem Update auf visionOS 1.3. Dieses Update erschien am 29. Juli, den Hinweis auf die Entdeckung der Forscher fügte Apple am 5. September den
Sicherheitshinweisen hinzu: "Inputs to the keyboard may be inferred from Persona". Mit einer relativ simplen Überbrückung wurde das Problem aus der Welt geschafft: Sobald ein Vision-Pro-Nutzer die virtuelle Tastatur bedient, friert das Persona-Bild ein.
Neue Eingabemethoden bedeuten neue SicherheitsrisikenDie Interpretation von Mimik und Gestik von VR- und AR-Headsets betrifft sicherlich auch andere Hersteller, etwa Facebooks Meta Quest oder Sonys PSVR: Aus Videoaufzeichnungen der Controller- und Kopfbewegungen lässt bei entsprechend hochaufgelösten Aufnahmen sicherlich ebenso leicht in Tastatureingaben zurückübersetzen. Da Apples individuelles Abbild die eigene Mimik exakt erfasst und detailreich auf ein individuelles Abbild (Persona) überträgt, verlagert sich das Risiko aus den eigenen vier Wänden in die virtuelle Realität von Videokonferenzen. In naher Zukunft wird sich auch die Konkurrenz ebenso mit dieser potenziellen Sicherheitslücke auseinandersetzen dürfen: Meta meldete jüngst ein
Patent zur Erfassung und Übertragung von Mimik an.