Apples KI-Forschung trägt Früchte – MM1 erkennt komplexe Zusammenhänge
Personen und Tiere identifizieren, Text erkennen, Sprache transkribieren – das sind KI-Fähigkeiten, die viele im Alltag bereits nutzen. So führt iOS 17 jetzt schon solcherlei Aufgaben routiniert im Hintergrund aus. Die aktuelle Herausforderung liegt bei komplexen Aufgabenstellungen, die mehrere Fähigkeiten kombinieren, bei der eine KI nicht nur richtig antwortet, sondern auf Nachfrage auch eine Herleitung liefert. Ein Forschungspapier aus Apples KI-Abteilung, das nun
als Pre-Print erschienen ist, legt einen erfolgversprechenden Ansatz offen – und zeigt beeindruckende Resultate.
Die Forscher gaben ihrem multimodalen Konstrukt den Namen MM1. Die Beispiele, die das Paper zur Veranschaulichung heranzieht, sind aus dem Leben gegriffen: Ein Foto vom Tisch einer Strandbar, ein zweites Foto von der Getränkekarte, dazu die Frage "Was muss ich zahlen?". Für die KI sind das mehrere Aufgaben, die einander bedingen. Im ersten Bild müssen Objekte erkannt werden (in diesem Fall Getränkeflaschen), zudem deren Marke. Das zweite Bild enthält Textinformationen, den es zu entziffern gilt. Dann kommt die Umsetzung: Anzahl, Sorte und Einzelpreis sollen zusammengeführt und zu einer Summe berechnet werden. MM1 kommt ohne Umschweife zum richtigen Ergebnis, während zwei zum Vergleich herangezogene Sprachmodelle wortreiche, aber falsche Antworten liefern.
Die Forschungs-KI kann aus Bildinformationen eine wahrscheinliche Temperatur ableiten.
Kombination mehrerer SprachmodelleIn der Einleitung ihrer Veröffentlichung betonen die Forscher, dass wenige KI-Entwicklungen bisher offenlegten, nach welchen Kriterien die Algorithmen für das multimodale Pre-Training zusammengestellt wurden. Das wollen sie ändern und beschreiben, wie sie unterschiedliche Anpassungen ausprobierten. Sie kombinierten drei Typen von Large Language Models (LLMs) mit unterschiedlichen Spezialisierungen: Bilderkennung, Bild-Text-Verknüpfung sowie Reintext. Durch die Experimente mit unterschiedlichen Mengen an Knoten (3, 7 und 30 Mrd.) und einem
Mixture-of-Experts-Ansatz entstand eine Gruppe performanter Modelle, welche die Forscher in 12 multimodalen KI-Benchmarks als Stand der Technik verifizieren konnten.
Captcha ist zwecklosDazu offenbart das Paper, welche Erkenntnisse dabei entstanden sind: So spielt die Auflösung des beim Pre-Training verwendeten Bildmaterials eine große Rolle. Überrascht hat die KI-Forscher, dass die Methode, wie Bildinformationen ins LLM eingespeist wurden, kaum Auswirkungen zeigte. Im Anhang zeigen Beispiele, wie gut der MM1-Ansatz funktioniert. Weder Zahlen auf einem gebogenen Display noch ein mit Filzstift auf ein Brückengeländer geschriebenes Graffito stellte das MLLM mit 30 Mrd. Knoten vor eine Herausforderung.
Mögliche KI-Integration in zukünftigen UpdatesDiese durchaus positiven Ergebnisse wecken bei Apple-Nutzern die Hoffnung, dass entsprechende MLLMs bald für Siri zum Einsatz kommen. Dafür müssen allerdings noch einige Faktoren hinzugezogen werden. Aus Datenschutzgründen werden Apples Betriebssysteme diese KI-Funktionen lokal, also beispielsweise auf dem iPhone des Nutzers ausführen. Dann allerdings verschlingt das MLLM wahrscheinlich einige Gigabyte an Speicherplatz. Zudem wird jede Anfrage viel Rechenleistung erfordern. Das kostet sowohl Zeit als auch Energie. Der Hersteller muss also die Faktoren Energie-, Speicher- und Zeitbedarf gegen die höchstmögliche Korrektheit der Antwort abwägen.