Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Viele ML-Neuerungen von Apple: Bilderkennung und lokales "ChatGPT"

In den letzten fünf Jahren hat künstliche Intelligenz gigantische Fortschritte gemacht und integriert sich immer weiter in das Arbeits- und Privatleben. Bild-Erstellung (so genannte Text-To-Image-Modelle) mit beispielsweise Stable Diffusion und Large-Language-Modelle wie ChatGPT werden mittlerweile von der breiten Masse genutzt und sind nicht länger eine nette Spielerei. Microsoft investiert Milliarden in den Erfinder von ChatGPT und integriert ML-Funktionen in nahezu allen Produkten. Google wurde von ChatGPT kalt erwischt – und brachte in Rekordzeit mit "Bard" eine Alternative auf den Markt.


Apple nutzt zwar an einigen Stellen künstliche Intelligenz (beispielsweise in der Fotos-App zum Erkennen von Personen, Objekten und Szenen), doch besonders Siri wird oftmals als Beispiel genannt, wie weit Apple in diesem wichtigen Markt hinterherhinkt. Im Hintergrund forscht Apple aktuell aber an vielen Technologien, um aufzuholen.

"Ferret" beschreibt Bilder
Bereits im Oktober 2023 veröffentlichte Apple ein Paper, Quellcode und Trainings-Daten eines neuen ML-Modells namens "Ferret". Das Multimodal-Large-Language-Modell kann Bildinhalte beschreiben (z.B. "Eine Katze, die in die Luft springt") und zusätzlich auch erkennen, wo sich welche Menschen, Tiere oder Objekte auf dem Bild befinden. Es ist zu erwarten, dass Apple diese Funktionalität in die Fotos-App integriert – und wahrscheinlich auch in die Bedienungshilfen, so dass macOS und iOS zukünftig detailliert den Inhalt von Bildern für sehbehinderte Menschen beschreiben kann.

50 Millionen Dollar zum Trainieren mit Nachrichten
Die New York Times berichtet, dass Apple 50 Millionen Dollar investieren will, um Sprachmodelle mit Nachrichten-Artikeln zu trainieren. Der Konzern soll sich aktuell in Gesprächen mit NBC News, People, The New Yorker, Vogue, The Daily Beast und Better Homes and Gardens befinden, um Zugriff auf deren Nachrichten-Archive zu Trainings-Zwecken zu erhalten. Laut dem Bericht soll Apples Angebot aber nicht unbedingt auf Gegenliebe stoßen, denn die Resonanz der Herausgeber sei nicht sonderlich euphorisch.

ChatGPT und andere Large-Language-Modelle kranken momentan daran, dass viele, auch schlichtweg falsche Nachrichtenquellen in die Trainings-Masse einflossen. Somit ist es möglich, dass die Sprachmodelle komplett falsche Antworten erzeugen – was natürlich recht gefährlich ist, wenn Nutzer unreflektiert die Antworten glauben. Möglicherweise möchte Apple dieser Problematik durch hochqualitative Trainings-Daten begegnen und begehrt daher Zugriff auf die Nachrichtenarchive namhaften Herausgeber.

Lokales Ausführen trotz geringem Arbeitsspeicher
Sprachmodelle wie ChatGPT erfordern viel Arbeitsspeicher und Rechenleistung – daher werden die allermeisten solcher Modelle in Datencentern auf entsprechender Hardware ausgeführt. Apple geht hier schon seit vielen Jahren einen Sonderweg: Durch die Neural Engine führt Apple viele Modelle, wie zum Beispiel die Bilderkennung, nicht in eigenen Datencentern aus, sondern lokal auf iPhones, iPads und Macs. Dies erhöht den Datenschutz, da Kundendaten auf den Geräten bleiben. Kommen aber komplexere Modelle zum Einsatz, reichen weder Arbeitsspeicher noch Rechenleistung dieser Geräte aus.

Apple veröffentlichte nun ein Paper mit dem Titel "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", in welchem der Konzern das lokale Ausführen von Sprachmodellen mit einigen Kniffen beschreibt. In dem Paper beschreibt der Konzern, wie gerade nicht benötigte Teile eines Sprachmodells auf die SSD ausgelagert werden können, um diese bei Bedarf in den Arbeitsspeicher dynamisch nachzuladen. Ferner macht Apple es sich zunutze, dass viele Daten in Sprachmodellen gepackt werden können und erhöht somit die Effizienz beim Ausführen derartiger Modelle. Mit diesen Techniken kann das Unternehmen Modelle auszuführen, welche doppelt so groß wie der eigentliche Arbeitsspeicher sind – und dabei eine beachtliche Geschwindigkeitssteigerung um den Faktor 4-5 (CPU) und 20-25 (GPU) erreichen.

Mit diesen Methoden könnte es Apple erreichen, zukünftig Sprachmodelle ähnlich ChatGPT lokal auf iPhones, iPads und Macs auszuführen – völlig ohne Internetverbindung und mit geringer Latenz. Dies könnte dem Konzern dazu verhelfen, dass Siri bei allgemeinen Fragen künftig mit aktuellen Sprachmodellen mithalten kann, ohne den Datenschutz zu gefährden.

Kommentare

Moogulator
Moogulator27.12.23 20:34
Erst einmal müssen sie etwas liefern, was GPT ein bisschen näher kommt und nicht die üblichen Probleme aufweist, weshalb viele Siri am Ende nicht nutzen. Mit GPT kann man schon mehr machen als den Wecker stellen und bei Apple muss man sehr spezielle Worte und Formulierungen verwenden, sonst klappt vieles nicht oder gibt die Standard-Antwort "ich habe dies im Internet gefunden".

Ich glaube Apple muss mehr als Geld auf das Thema werfen um hier einen Achtungserfolg zu haben und umfallende Katzen können andere nicht nur erkennen sondern zeichnen in allen Stilen und Formen.

Da ist Apple noch nicht. Für Bediener normaler Art wäre es hier und da ein Segen, wenn sie Fragen in normaler Sprache absetzen könnten.
Ich habe eine MACadresse!
+2
Mendel Kucharzeck
Mendel Kucharzeck27.12.23 21:02
Moogulator
Darum geht es in der News eigentlich nicht. Hauptsächlich wird hier beschrieben, dass Apple ÜBERHAUPT ein Sprachmodell ausführen kann. Die Besonderheit: Es läuft lokal auf deinem Gerät und nicht auf einem Server.
+6
Moogulator
Moogulator27.12.23 21:15
ja und das finde ich aktuell nicht unbedingt ermutigend, dass da was kommt. Es stimmt, dass es ein wenig über das Ziel hinaus ist - aaaber - ich sag mal - ich erwarte wenig.
Ich habe eine MACadresse!
-1
Mendel Kucharzeck
Mendel Kucharzeck27.12.23 23:40
Moogulator
Das eine hat wirklich nicht viel mit dem anderen zu tun. Es kann sein, dass Apple ein sehr fortgeschrittenes Sprachmodell besitzt oder eben gar nichts vorzuweisen hat – völlig unabhängig vom Research bzgl. dem lokalen Ausführen von komplexen Modellen.
+4
ssb
ssb28.12.23 09:27
Wer mal mit Text2Image (Stable Diffusion) auf einem iPad lokal gespielt hat (DrawThings-App) der kann den Speicherbedarf erahnen während man dabei zusehen kann, wie die Akku-Ladung sinkt.

Der Aufwand für KI ist einfach riesig und spätestens auf dem zweiten Blick erscheint der Resourcenverbrauch dafür oft nicht mehr so intelligent. Um so bemerkenswerter, wie „sparsam“ die natürliche Intelligenz ist, auch wenn nicht jeder alles kann oder weiß - aber durch soziale Interaktion können wir das untereinander ausgleichen.
+10
Frank Drebin
Frank Drebin28.12.23 17:58
Wer die Reportage mit Johny Srouji und John Ternus gesehen hat, der weiß alleine an deren Reaktion, dass Apple da was im Köcher hat und es scheint auch etwas ziemlich gutes zu sein… Jedenfalls lachen beide ziemlich vielsagend und behaupten dabei, sie dürfen nicht über zukünftige Entwicklung sprechen…
-1
Unwindprotect01.01.24 13:19
@mactechnews
Das Problem falsche Fakten zu liefern liegt bei LLMs im Prinzip und nicht an den verwendeten „falschen“ Quellen. Man bezeichnet das als „Konfabulieren“ und es ist eine typische Eigenschaft von autoregressiven großen Sprachmodellen: Diese erzeugen eben immer einen Text der statistisch zum vorherigen passt. Wenn genug „passendes“ im Modell ist, dann kann die Antwort mitunter auch der Realität entsprechen… wenn nicht ist es einfach sprachlich schön formulierter Quatsch. Dieses Problem ist bislang nicht gelöst und viele halten es sogar für nicht lösbar - zumindest mit AR LLMs

Inhalte von Nachrichtenmedien werden deshalb auch nicht wegen der Nachrichten an sich verwendet sondern um dem Basismodell ausreichende Grundlagen in _Sprache_ zu vermitteln.

Moogulator
Erst einmal müssen sie etwas liefern, was GPT ein bisschen näher kommt und nicht die üblichen Probleme aufweist, weshalb viele Siri am Ende nicht nutzen. Mit GPT kann man schon mehr machen als den Wecker stellen und bei Apple muss man sehr spezielle Worte und Formulierungen verwenden, sonst klappt vieles nicht oder gibt die Standard-Antwort "ich habe dies im Internet gefunden".

Befehle ausführen mit Siri und GPT sind völlig unterschiedliche Dinge. GPT kann natürlich keinen Wecker stellen, aber man könnte natürlich eine App schreiben die GPT benutzt um dann einen Wecker zu stellen. In der Tat könnte Apple ein LLM verwenden um das Sprachverständnis von Siri zu verbessern. Damit könnten die manchmal etwas spezifischen Formulierungen die aktuell notwendig sind flexibler gestaltet werden. Man könnte vermutlich auch mehrere Dinge auf einmal verlangen und nach der Aufbearbeitung durch das LLM können einzelne Befehle daraus werden. Außerdem können die Antworten von Siri dynamischer sein. All das sind Dinge mit welchen man durchaus in Zukunft rechnen kann. Ob Apple soweit geht auf beliebige Fragen dann potentiell Konfabulierungen zu liefern oder stattdessen alles außerhalb des Befehlsraums abzulehnen wird sich noch zeigen. Allerdings gibt es ja auch die Möglichkeit LLMs zB zum Schreiben von Mails, Briefen, Termineinträgen usw. Zu verwenden oder für Beschreibungen von Fotos… also „Befehle“ sind nur ein Teilaspekt.
Moogulator
Ich glaube Apple muss mehr als Geld auf das Thema werfen um hier einen Achtungserfolg zu haben und umfallende Katzen können andere nicht nur erkennen sondern zeichnen in allen Stilen und Formen.

Apple ist nicht im Business für ML-Basistechnologien. Sie konkurrieren nicht mit OpenAI als Anbieter für KI-Services. Apple baut Produkte in welchen unter anderem bereits seit langem sehr viele KI und ML Algorithmen werkeln…die besten davon bemerkst Du dabei nicht einmal. Genau das werden sie in Ruhe weiter machen und dabei den aktuellen Stand der Forschung nutzen. Ob dabei auch das Generieren von Bildern einen Anwendungsfall findet wird sich zeigen. Wieso sollte Apple denn einfach genau das machen was man jetzt bereits mit Apps machen kann? Es muss einen _Sinn_ geben das als Teil des Produkts einzubauen.

Ich glaube Siri war zu einem gewissen Grad ein Fehler. Als diese Assistenten damals rauskamen haben Laien sie sofort wie „Hollywood-KIs“ gesehen und völlig abgehobene Dinge erwartet. Entsprechend haben überzogene Erwartungen dazu geführt, dass Sprachassistenten im allgemeinen und Siri im speziellen einen negativen Ruf haben. Wenn man jetzt dasselbe auf Basis von GPT wiederholt, dann werden die Leute wieder mit falschen Erwartungen rangehen und denken es sei diesmal aber „wirklich“ eine „KI“.
Moogulator
Da ist Apple noch nicht. Für Bediener normaler Art wäre es hier und da ein Segen, wenn sie Fragen in normaler Sprache absetzen könnten.

Das wurde über die Jahre - allen Unkenrufen zum Trotz allerdings schon signifikant besser. Dennoch erwarte ich das Sprachmodelle hier noch signifikant mehr Flexibilität liefern werden in Zukunft.
+1

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.