Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Apple-Studie: KI-Modelle scheitern an logischen Denkaufgaben

Apple legt mit Apple Intelligence eine Reihe an KI-Funktionen vor, welche Schritt für Schritt mit Software-Updates im iPhone, iPad sowie Mac Einzug halten. Einen klassischen Chatbot bietet das Unternehmen indes nicht an, stattdessen soll Siri bald zu weit klügeren Antworten fähig sein und sich bei komplexen Fragestellungen an ChatGPT wenden, um auf OpenAIs Large Language Model zugreifen zu können. Diese Modelle scheinen aber bei vielen Aufgaben, die „KI-Reasoning“ erforderlich machen, recht deutlich zu versagen: Oftmals gelingt es ihnen nicht, Schlüsse aus vorhandenen Daten zu ziehen, wenn irrelevante Informationen die Logik der KI trüben.


Simple Aufgabe liefert falsche Ergebnisse
Apples KI-Forschungsteam veröffentlichte eine neue Studie, welche der Frage nachgeht, wie gut die LLMs von OpenAI, Meta und anderen Anbietern mathematische Denkaufgaben bewältigen können. Dabei zeigt sich, dass die Erweiterung der Angabe mit belanglosen Details und Umformulierungen beträchtliche Auswirkungen auf das Ergebnis haben können. Die Studie nennt einige Beispiele, darunter folgendes:
Oliver pflückt am Freitag 44 Kiwis. Dann pflückt er 58 Kiwis am Samstag. Am Sonntag pflückt er die doppelte so viele Kiwis wie am Freitag, aber fünf davon sind etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?

OpenAIs Sprachmodell o1-mini, das vor allem bei komplexen mathematischen Aufgaben punkten soll, versagt bei dieser Angabe: Es lässt sich von der Größe der fünf Kiwis beirren und subtrahiert diese vom Ergebnis, sodass es auf 185 statt 190 Kiwis kommt. Metas Llama3-8b begeht denselben Fehler.

LLMs mit logischen Schlüssen überfordert
Die Studienautoren geben zu bedenken, dass sich die getesteten LLMs eher in ausgeklügelten Vergleichen versuchen, um Muster zu identifizieren. Mit der Fähigkeit, logische Schlüsse zu ziehen, habe dies aber nichts gemein. Es sei weitere Forschung erforderlich, um KI-Modelle Aufgaben dieser Art lösen zu lassen. Für die Entwickler hinter den LLMs dürfte das Ergebnis wohl tatsächlich wenig erfreulich sein: So erklärte OpenAI, dass o1 bei anspruchsvollen Fragestellungen aus naturwissenschaftlichen Bereichen „ähnlich abschneide wie Doktoranden der jeweiligen Fächer“ (siehe hier).

Kommentare

richm15.10.24 11:58
ok, interessant. Gerade bei ChatGPT eingegeben.
Ergebnis: Apples KI-Forschungsteam liegt falsch ...oder die Forschungstudie ist schon älter ... oder ChatGPT hat dazu gelernt.
+2
Zerojojo15.10.24 12:08
ChatGPT hat wahrscheinlich die Studie gelesen.
+6
sudoRinger
sudoRinger15.10.24 12:08
Ist doch sehr menschlich, oder?
Spiegel
Bei Tests mit deutschen Schülern Mitte der neunziger Jahre haben Wissenschaftler von der TU Dortmund beobachtet, dass diese sogar dann anfangen zu rechnen, wenn sie es eigentlich gar nicht müssten: Ein 27 Jahre alter Hirte hat 25 Schafe und 10 Ziegen. Wie alt ist der Hirte?

Obwohl die Lösung 27 Jahre klar im Text steht, rechneten die Kinder munter drauflos. 27 + 25 + 10, 27 + 25 - 10 - bei den Rechenwegen zeigten sich die Grundschüler erfinderisch. Im Anschluss baten die Forscher die Kinder, ihre Lösungen noch einmal zu erklären.

Viele waren überzeugt, alles richtig gemacht zu haben, wie das folgende Gesprächsprotokoll von Hartmut Spiegel und Christoph Selter zeigt:

Sebastian: Ich weiß es. Ein 27 Jahre alter Hirte, da muss man die 25 noch dazuzählen. Und die 10 Ziegen, die laufen ja nicht weg!
Frage: Die laufen nicht weg?
Sebastian: Ne, hab' ich nicht geschrieben!
Frage: Und was musst du da rechnen?
Sebastian: 27 plus 25 plus die 10.
Frage: Weil die Ziegen nicht weglaufen?
Sebastian: Ja.
Frage an Dennis: Und was meinst du?
Dennis: Die laufen weg! Der passt da nicht drauf auf!
0
Marcel Bresink15.10.24 12:19
richm
Gerade bei ChatGPT eingegeben. Ergebnis: Apples KI-Forschungsteam liegt falsch

Nein, denn hier geht es um konkrete Modelle, nicht um einen Internet-Anbieter, der sein Modell jede Minute wechseln kann.
0
Danger15.10.24 12:26
Mein lokales Llama 3.2 (3b) kommt auch auf 185 Kiwis.
0
deus-ex
deus-ex15.10.24 12:40
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?
0
Sitox
Sitox15.10.24 13:20
deus-ex
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?
Gemini behauptet:
+1
deus-ex
deus-ex15.10.24 13:44
Sitox
deus-ex
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?
Gemini behauptet:
ChatGPT:


Problem. ChatGPT weiß nicht das Alice die Schwester ist, weil es wohl nicht versteht das Alice weiblich ist. Aber falls es so ist , deckt es die Wahrscheinlichkeit ab.
0
Bitsurfer15.10.24 14:01
Womit wir zum Schluss kommen dass KI gar keine Intelligenz hat sonder nur Informationen zusammenträgt und zusammenfügt. Obwohl das dann intelligent aussieht, aber eben nicht ist.
+2
richm15.10.24 14:01
Marcel Bresink
richm
Gerade bei ChatGPT eingegeben. Ergebnis: Apples KI-Forschungsteam liegt falsch

Nein, denn hier geht es um konkrete Modelle, nicht um einen Internet-Anbieter, der sein Modell jede Minute wechseln kann.

Kann dir leider nicht ganz folgen. GPT-3, GPT-4, GPT-4o Mini usw. sind doch LMMs, die von OpenAI angeboten werden. Und diese und ein paar andere hatte Apple getestet. So hatte ich den Text und die Studie verstanden.
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.