Viele ML-Neuerungen von Apple: Bilderkennung und lokales "ChatGPT"
In den letzten fünf Jahren hat künstliche Intelligenz gigantische Fortschritte gemacht und integriert sich immer weiter in das Arbeits- und Privatleben. Bild-Erstellung (so genannte Text-To-Image-Modelle) mit beispielsweise Stable Diffusion und Large-Language-Modelle wie ChatGPT werden mittlerweile von der breiten Masse genutzt und sind nicht länger eine nette Spielerei. Microsoft investiert Milliarden in den Erfinder von ChatGPT und integriert ML-Funktionen in nahezu allen Produkten. Google wurde von ChatGPT kalt erwischt – und brachte in Rekordzeit mit "Bard" eine Alternative auf den Markt.
Apple nutzt zwar an einigen Stellen künstliche Intelligenz (beispielsweise in der Fotos-App zum Erkennen von Personen, Objekten und Szenen), doch besonders Siri wird oftmals als Beispiel genannt, wie weit Apple in diesem wichtigen Markt hinterherhinkt. Im Hintergrund forscht Apple aktuell aber an vielen Technologien, um aufzuholen.
"Ferret" beschreibt BilderBereits im Oktober 2023
veröffentlichte Apple ein Paper, Quellcode und Trainings-Daten eines neuen ML-Modells namens "Ferret". Das Multimodal-Large-Language-Modell kann Bildinhalte beschreiben (z.B. "Eine Katze, die in die Luft springt") und zusätzlich auch erkennen, wo sich welche Menschen, Tiere oder Objekte auf dem Bild befinden. Es ist zu erwarten, dass Apple diese Funktionalität in die Fotos-App integriert – und wahrscheinlich auch in die Bedienungshilfen, so dass macOS und iOS zukünftig detailliert den Inhalt von Bildern für sehbehinderte Menschen beschreiben kann.
50 Millionen Dollar zum Trainieren mit NachrichtenDie New York Times
berichtet, dass Apple 50 Millionen Dollar investieren will, um Sprachmodelle mit Nachrichten-Artikeln zu trainieren. Der Konzern soll sich aktuell in Gesprächen mit NBC News, People, The New Yorker, Vogue, The Daily Beast und Better Homes and Gardens befinden, um Zugriff auf deren Nachrichten-Archive zu Trainings-Zwecken zu erhalten. Laut dem Bericht soll Apples Angebot aber nicht unbedingt auf Gegenliebe stoßen, denn die Resonanz der Herausgeber sei nicht sonderlich euphorisch.
ChatGPT und andere Large-Language-Modelle kranken momentan daran, dass viele, auch schlichtweg falsche Nachrichtenquellen in die Trainings-Masse einflossen. Somit ist es möglich, dass die Sprachmodelle komplett falsche Antworten erzeugen – was natürlich recht gefährlich ist, wenn Nutzer unreflektiert die Antworten glauben. Möglicherweise möchte Apple dieser Problematik durch hochqualitative Trainings-Daten begegnen und begehrt daher Zugriff auf die Nachrichtenarchive namhaften Herausgeber.
Lokales Ausführen trotz geringem ArbeitsspeicherSprachmodelle wie ChatGPT erfordern viel Arbeitsspeicher und Rechenleistung – daher werden die allermeisten solcher Modelle in Datencentern auf entsprechender Hardware ausgeführt. Apple geht hier schon seit vielen Jahren einen Sonderweg: Durch die Neural Engine führt Apple viele Modelle, wie zum Beispiel die Bilderkennung, nicht in eigenen Datencentern aus, sondern lokal auf iPhones, iPads und Macs. Dies erhöht den Datenschutz, da Kundendaten auf den Geräten bleiben. Kommen aber komplexere Modelle zum Einsatz, reichen weder Arbeitsspeicher noch Rechenleistung dieser Geräte aus.
Apple veröffentlichte nun ein
Paper mit dem Titel "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", in welchem der Konzern das lokale Ausführen von Sprachmodellen mit einigen Kniffen beschreibt. In dem Paper beschreibt der Konzern, wie gerade nicht benötigte Teile eines Sprachmodells auf die SSD ausgelagert werden können, um diese bei Bedarf in den Arbeitsspeicher dynamisch nachzuladen. Ferner macht Apple es sich zunutze, dass viele Daten in Sprachmodellen gepackt werden können und erhöht somit die Effizienz beim Ausführen derartiger Modelle. Mit diesen Techniken kann das Unternehmen Modelle auszuführen, welche doppelt so groß wie der eigentliche Arbeitsspeicher sind – und dabei eine beachtliche Geschwindigkeitssteigerung um den Faktor 4-5 (CPU) und 20-25 (GPU) erreichen.
Mit diesen Methoden könnte es Apple erreichen, zukünftig Sprachmodelle ähnlich ChatGPT lokal auf iPhones, iPads und Macs auszuführen – völlig ohne Internetverbindung und mit geringer Latenz. Dies könnte dem Konzern dazu verhelfen, dass Siri bei allgemeinen Fragen künftig mit aktuellen Sprachmodellen mithalten kann, ohne den Datenschutz zu gefährden.