Siri kann Fotos "vorlesen" – überraschend akkurat
Die Bedienung von Smartphones, Tablets und Computern stellt für Menschen mit Sehbehinderungen eine besondere Herausforderung dar. Apple und andere Hersteller bieten daher in den Betriebssystemen eine Reihe von Bedienungshilfen an. Dazu gehört beispielsweise das VoiceOver genannte Feature, welches die auf dem Display eines Geräts angezeigten Inhalte vorliest. Dank Maschinellem Lernen und Künstlicher Intelligenz wird diese Funktion immer leistungsfähiger und geht mittlerweile erheblich über das reine Ansagen von Textelementen hinaus.
Bildinhalte werden akustisch beschriebenMit iOS/iPadOS 14 beschreibt VoiceOver in der Fotos-App auf iPhone und iPad auch die Inhalte der Bilder, welche auf den Geräten oder in iCloud gespeichert sind. Die Funktion ist zwar standardmäßig nicht eingeschaltet, kann aber in den Einstellungen unter "Bedienungshilfen" konfiguriert werden. Hierzu öffnet man zunächst die Option "VoiceOver" und aktiviert dann unter "VoiceOver-Erkennung" die "Bildbeschreibungen". iPhone beziehungsweise iPad laden dann eine etwa 150 Megabyte große Datei herunter, welche für die Ansage von Bildinhalten erforderlich ist.
Motivbeschreibung in natürlicher SpracheÖffnet man nun nach der Aktivierung von VoiceOver und der Bildbeschreibungen die Fotos-App, öffnet ein Fingertipp auf eines der Vorschaubildchen nicht unmittelbar das Foto. Stattdessen nennen iPhone oder iPad das Aufnahmedatum und beschreiben anschließend kurz das Motiv, und zwar in natürlicher Sprache. Bislang funktioniert das allerdings noch nicht auf Deutsch, vielmehr erfolgt die Ansage auf Englisch. Zu hören sind dann beispielsweise kurze Sätze wie "A baby lying on a bed with a purple blanket and toy " oder "A stone building with a bell tower and a cross on top of it". Auch die Inhalte von Screenshots werden erkannt.
Analyse erfolgt lokal auf dem iPhoneDie Analyse der Bildinhalte erfolgt lokal auf dem Gerät, funktioniert also auch ohne Internetvernindung. Die den Bildbeschreibungen zugrunde liegende Künstliche Intelligenz arbeitet dabei sehr zuverlässig und vor allem mit beeindruckender Geschwindigkeit. In den meisten Fällen dauert es nur knapp eine Sekunde, bis die Ansage beginnt. Das System erkennt zudem nicht nur vergleichsweise einfach zu analysierende Motive wie Menschen oder Gebäude, sondern beispielsweise auch, ob das jeweilige Foto einen strahlend blauen oder bewölkten Himmel zeigt. Landschaftsaufnahmen werden von Siri ebenfalls in aller Regel treffend beschrieben, allerdings gibt es keine Hinweise auf den genauen Ort, an welchem das Foto gemacht wurde. Ob Apple in einer zukünftigen Version von iOS/iPadOS die Bildbeschreibungen auch in deutscher Sprache zur Verfügung stellen wird, ist nicht bekannt.