Push-Nachrichten von MacTechNews.de

Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Apples KI-Forschung trägt Früchte – MM1 erkennt komplexe Zusammenhänge

Personen und Tiere identifizieren, Text erkennen, Sprache transkribieren – das sind KI-Fähigkeiten, die viele im Alltag bereits nutzen. So führt iOS 17 jetzt schon solcherlei Aufgaben routiniert im Hintergrund aus. Die aktuelle Herausforderung liegt bei komplexen Aufgabenstellungen, die mehrere Fähigkeiten kombinieren, bei der eine KI nicht nur richtig antwortet, sondern auf Nachfrage auch eine Herleitung liefert. Ein Forschungspapier aus Apples KI-Abteilung, das nun als Pre-Print erschienen ist, legt einen erfolgversprechenden Ansatz offen – und zeigt beeindruckende Resultate.

Die Forscher gaben ihrem multimodalen Konstrukt den Namen MM1. Die Beispiele, die das Paper zur Veranschaulichung heranzieht, sind aus dem Leben gegriffen: Ein Foto vom Tisch einer Strandbar, ein zweites Foto von der Getränkekarte, dazu die Frage "Was muss ich zahlen?". Für die KI sind das mehrere Aufgaben, die einander bedingen. Im ersten Bild müssen Objekte erkannt werden (in diesem Fall Getränkeflaschen), zudem deren Marke. Das zweite Bild enthält Textinformationen, den es zu entziffern gilt. Dann kommt die Umsetzung: Anzahl, Sorte und Einzelpreis sollen zusammengeführt und zu einer Summe berechnet werden. MM1 kommt ohne Umschweife zum richtigen Ergebnis, während zwei zum Vergleich herangezogene Sprachmodelle wortreiche, aber falsche Antworten liefern.

Die Forschungs-KI kann aus Bildinformationen eine wahrscheinliche Temperatur ableiten.

Kombination mehrerer Sprachmodelle
In der Einleitung ihrer Veröffentlichung betonen die Forscher, dass wenige KI-Entwicklungen bisher offenlegten, nach welchen Kriterien die Algorithmen für das multimodale Pre-Training zusammengestellt wurden. Das wollen sie ändern und beschreiben, wie sie unterschiedliche Anpassungen ausprobierten. Sie kombinierten drei Typen von Large Language Models (LLMs) mit unterschiedlichen Spezialisierungen: Bilderkennung, Bild-Text-Verknüpfung sowie Reintext. Durch die Experimente mit unterschiedlichen Mengen an Knoten (3, 7 und 30 Mrd.) und einem Mixture-of-Experts-Ansatz entstand eine Gruppe performanter Modelle, welche die Forscher in 12 multimodalen KI-Benchmarks als Stand der Technik verifizieren konnten.

Captcha ist zwecklos
Dazu offenbart das Paper, welche Erkenntnisse dabei entstanden sind: So spielt die Auflösung des beim Pre-Training verwendeten Bildmaterials eine große Rolle. Überrascht hat die KI-Forscher, dass die Methode, wie Bildinformationen ins LLM eingespeist wurden, kaum Auswirkungen zeigte. Im Anhang zeigen Beispiele, wie gut der MM1-Ansatz funktioniert. Weder Zahlen auf einem gebogenen Display noch ein mit Filzstift auf ein Brückengeländer geschriebenes Graffito stellte das MLLM mit 30 Mrd. Knoten vor eine Herausforderung.

Mögliche KI-Integration in zukünftigen Updates
Diese durchaus positiven Ergebnisse wecken bei Apple-Nutzern die Hoffnung, dass entsprechende MLLMs bald für Siri zum Einsatz kommen. Dafür müssen allerdings noch einige Faktoren hinzugezogen werden. Aus Datenschutzgründen werden Apples Betriebssysteme diese KI-Funktionen lokal, also beispielsweise auf dem iPhone des Nutzers ausführen. Dann allerdings verschlingt das MLLM wahrscheinlich einige Gigabyte an Speicherplatz. Zudem wird jede Anfrage viel Rechenleistung erfordern. Das kostet sowohl Zeit als auch Energie. Der Hersteller muss also die Faktoren Energie-, Speicher- und Zeitbedarf gegen die höchstmögliche Korrektheit der Antwort abwägen.

iPhone 17 Pro: Leaks sollen Details zur neuen R...

Freie Software in Deutschland nicht gemeinnützi...

iOS 18.2, macOS 15.2 und Co.: Apple stopft viel...

Neues iPhone SE, MacBook Air und iPad Air vorau...

Apple Music: Sonderangebot mit massiver Preisse...

WhatsApp: Neue Hintergrund- und Farboptionen

Sichere Exklave – neue Sicherheitsfunktion in m...

iPhone SE 4 soll diese Woche erscheinen: Was bi...

Kommentare

oxid20.03.24 09:43

Ich finds erschreckend dass die Menschen die KI entwickeln nicht wissen wie diese lernt. Bzw. Dies erst einmal herauszufinden müssen. Schließlich war der Mensch der diese entwickelt zuerst existent. Damit stellt sich ja nicht die „Huhn-Ei Frage „.

Zum Zitat: „Überrascht hat die KI-Forscher, dass die Methode, wie Bildinformationen ins LLM eingespeist wurden, kaum Auswirkungen zeigte.“

Allgemein finde ich die Zukunft mit KI gleichermaßen besorgniserregend wie faszinierend und aufregend. Ich hätte jedenfalls gerne eine Zukunft der Menschheit wie in Star Trek und weniger wie Terminator… 🤔

Garak20.03.24 10:27

oxid

Ich finds erschreckend dass die Menschen die KI entwickeln nicht wissen wie diese lernt.

Nun, es war schon immer so, dass der Mensch Dinge anwendete, von denen er nicht verstand, warum sie so funktionierten. Man nehme nur die Metallverarbeitung mitsamt Legierungen. Man wusste, was zu machen, verstand aber nicht, warum diese Ergebnisse genau so entstanden. Aber egal, es ließen sich wunderbar Waffen daraus herstellen.

Nebula20.03.24 10:44

Und selbst das Verstehen hilft nicht viel, siehe Atombombe.

»Wir werden alle sterben« – Albert Einstein

Bitsurfer20.03.24 10:53

KI kann nicht lernen und ist auch nicht intelligent. Das ist nur eine Illusion. Die "KI" kann nur Informationen auswerten und aneinanderreihen. Eigentlich es es nur Maschinelles Lernen.

Oder kann ein KI gestütztes Fahrzeug in der Rush Hour selbständig durch Frankfurt fahren? Nö, oder? Sind ja nur vier Operationen. Schauen, Beschleunigen, Bremsen Lenken.

-2

Danger20.03.24 11:30

Boah, Wahnsinn.

Anstatt zu sehen, welche Fortschritte und welche Möglichkeiten für das Wohl der Menschheit in der KI-Forschung entstehen, liegt der Augenmerk hier in den tausenderlei Gefahren.

Zum Glück gab es auch früher Menschen, die das Positive im Fortschritt gesehen haben, ansonsten würden wir alle immer noch Keule schwingend halbnackt im Wald herumlaufen.

Raziel120.03.24 12:55

Bitsurfer

KI kann nicht lernen und ist auch nicht intelligent. Das ist nur eine Illusion. Die "KI" kann nur Informationen auswerten und aneinanderreihen.

Ein ehemaliger Kollege hat schon vor 8 Jahren an einer KI gearbeitet die genau das konnte. Nicht erlernte Probleme lösen, Wissen neu kombinieren um Lösungen zu finden. Quasi ein echtes Verständnis und selbstständige Herleitung und Lösungsfindung sowie erlernen. Dauerte nicht lange und er ging in die USA um für die NASA zu arbeiten. Das war aber alles schon zu der Zeit weit voraus. Leider weiß ich bish heute nicht was daraus wurde (ausser wo ein erster Funken davon zum Einsatz kam).

AJVienna20.03.24 13:11

Bitsurfer

KI kann nicht lernen und ist auch nicht intelligent. Das ist nur eine Illusion. Die "KI" kann nur Informationen auswerten und aneinanderreihen. Eigentlich es es nur Maschinelles Lernen.

Der Mensch kann nicht lernen und ist auch nicht intelligent. Das ist nur eine Illusion. Das „Gehirn" kann nur Informationen auswerten und aneinanderreihen. Eigentlich es es nur biologisches Lernen.

Aber Spaß beiseite. Wir wissen auch nicht wirklich wie das Gehirn diese Dinge bewältigt. Das ist immer noch nur oberflächlich verstanden und das existierende Wissen darüber wird auch für die Fortschritte in der KI eingesetzt. Jeder der das was KI im Moment zu leisten vermag herabwürdigt vergisst das leicht. Auch die Geschwindigkeit mit der sich das aktuell verbessert, finde ich etwas besorgniserregend. Die soziale Entwicklung der Menschheit kommt da nämlich nicht mit.

Bitsurfer

Oder kann ein KI gestütztes Fahrzeug in der Rush Hour selbständig durch Frankfurt fahren? Nö, oder? Sind ja nur vier Operationen. Schauen, Beschleunigen, Bremsen Lenken.

Ja, Tesla kann das mittlerweile. Angeblich bemühen sie sich bereits um eine Zulassung.

Dunkelbier20.03.24 13:53

AJVienna

Sorry. Momentan ist das Ding exakt 0 intelligent. Es kann nicht mal richtig rechnen. Ich sehe das jeden Tag, wenn ich das benutze. Da müssen noch andere Modelle her. Ein LLVM reicht ganz offensichtlich nicht.

Ja, Tesla kann das mittlerweile. Angeblich bemühen sie sich bereits um eine Zulassung.

Klar. Ganz bestimmt. Diesmal wirklich. Gab es nicht das diesen Roboter der von ganz alleine ein T-Shirt gefaltet hat? Oh, warte…

-2

Raziel121.03.24 11:23

AJVienna

Bitsurfer

KI kann nicht lernen und ist auch nicht intelligent. Das ist nur eine Illusion. Die "KI" kann nur Informationen auswerten und aneinanderreihen. Eigentlich es es nur Maschinelles Lernen.

Bitsurfer

Oder kann ein KI gestütztes Fahrzeug in der Rush Hour selbständig durch Frankfurt fahren? Nö, oder? Sind ja nur vier Operationen. Schauen, Beschleunigen, Bremsen Lenken.

Ja, Tesla kann das mittlerweile. Angeblich bemühen sie sich bereits um eine Zulassung.

Ergänzung: Andere konnten das schon länger, wird hierzulande nur wenig darüber gesprochen. Prominente aktuellere Vertreter sind zb NIO, die da Tesla auch technisch voraus sind. In Asien ist man da sowieso weiter, aber hierzulande hört man halt kaum was von den vielen Herstellern oder auch öffentlichen Fahrzeugen .

Raziel121.03.24 11:29

Dunkelbier

AJVienna

Ja, Tesla kann das mittlerweile. Angeblich bemühen sie sich bereits um eine Zulassung.

Klar. Ganz bestimmt. Diesmal wirklich. Gab es nicht das diesen Roboter der von ganz alleine ein T-Shirt gefaltet hat? Oh, warte…

Du hast aber schon die letzten Jahre mal online geschaut? Die beta läuft schon sehr lange aktiv in den USA. Anfangs natürlich nicht perfekt, aber mittlerweile sehr sehr gut. Es gibt zahlreiche Videos von normalen Personen die die Beta aktiv haben und komplett autonome Fahrten quer durch Manhattan und andere komplexe Wege zeigen. Was du also beschreibst. funktioniert so schon jetzt und wird auch aktiv eingesetzt von normalen Tesla Besitzern. Und bezugnehmend auf meinen vorherigen Kommentar: Das ist nur Tesla. Andere sind da schon länger weiter. Was USA betrifft gibt es dort übrigens auch bereits voll autonome Taxis. Nicht so hübsch wie klassische Serienfahrzeuge im Privatbereich (weil umgerüstet) aber funktional.

Dunkelbier21.03.24 12:13

Raziel1

Ach, er hat also inzwischen eine Level 3-Genehmigung? Das lässt sich doch sicher rausfinden… Denn die ist zwingend notwenig für autonomes fahren.

Raziel121.03.24 12:58

Dunkelbier

Raziel1

Ach, er hat also inzwischen eine Level 3-Genehmigung? Das lässt sich doch sicher rausfinden… Denn die ist zwingend notwenig für autonomes fahren.

Ok ich gebe auf. Wer Texte nicht liest oder verstehen will, der will es halt nicht

Dunkelbier21.03.24 14:37

Raziel1

Ok ich gebe auf. Wer Texte nicht liest oder verstehen will, der will es halt nicht

Was gibt es da zu verstehen? Wenn keine Level 3-Lizenz vorliegt, darf nicht autonom gefahren werden. So einfach ist das. Auch nicht als "beta".

Und bei Wikipedia ist "Tesla" nur ist in dem Artikel über autonomes Fahren größtenteils unter der Überschrift "Visionen" zu finden. Geradezu bezeichnend

Raziel121.03.24 15:52

Dunkelbier

Raziel1

Ok ich gebe auf. Wer Texte nicht liest oder verstehen will, der will es halt nicht

Was es scheinbar nicht zu verstehen gibt ist, dass im Text offensichtlich und ganz klar die Rede von USA und Asien ist. Damit hat sich das Thema mit Level 3 Lizenz etc völlig erledigt.

Du bezweifelst weiter oben die Existenz/Funktionsfähigkeit solcher Systeme und ich habe dir versucht klar zu machen, dass diese jedoch existieren und bereits im Einsatz sind. Es ging als weder um Zulassungen noch spezifische Länder. Deine Frage ob ein KI gestütztes Fahrzeug durch die Rush Hour in Frankfurt fahren könnte, ist mit einem ganz klaren Ja zu beantworten. Und das nicht als Vision sondern funktional bereits gegeben.

Das es das noch nicht tut, liegt im Grunde rein an der hierzulande rechtlichen und auch sicherheitstechnischen Lage (zurecht natürlich!), aber nicht an der Existenz dieser Systeme oder deren Fähigkeiten. In anderen Ländern fahren bereits öffentliche Verkehrsmittel wie Busse, Taxis und auch private Fahrzeuge voll autonom. Andere Beispiele wurden ja bereits gegeben.

Das hat auch gar nichts mit Tesla speziell zu tun. Denen meiner persönlichen Meinung nach die notwendigen zusätzlichen Sensoren fehlen um gewisse Sicherheitsaspekte und Situationen abzudecken. Aber das ist ein anderes Thema.

Um rechtliche Lagen und Zulassungen ging es nicht. Und das Wikipedia keine Referenz ist haben wir schon in der Schule gelernt

Unwindprotect21.03.24 17:54

oxid

Ich glaube das kann man sich als Laie (davon gehe ich aus) nicht so leicht vorstellen. Auf extrem einfach reduziert: „Probieren geht über studieren“ 😅 - natürlich hätten sie die Methode der Bilddateneinspeisung und deren Auswirkung auch durchrechnen können, denn an und für sich ist all das was diese Systeme machen vollkommen deterministisch. Nur ist das in so einem System eben extrem aufwändig und es ist eben wesentlich einfacher es auszuprobieren und die Ergebnisse auszuwerten.

Apples KI-Forschung trägt Früchte – MM1 erkennt komplexe Zusammenhänge

Kommentare

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.