Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Apple-Studie: KI-Modelle scheitern an logischen Denkaufgaben

Apple legt mit Apple Intelligence eine Reihe an KI-Funktionen vor, welche Schritt für Schritt mit Software-Updates im iPhone, iPad sowie Mac Einzug halten. Einen klassischen Chatbot bietet das Unternehmen indes nicht an, stattdessen soll Siri bald zu weit klügeren Antworten fähig sein und sich bei komplexen Fragestellungen an ChatGPT wenden, um auf OpenAIs Large Language Model zugreifen zu können. Diese Modelle scheinen aber bei vielen Aufgaben, die „KI-Reasoning“ erforderlich machen, recht deutlich zu versagen: Oftmals gelingt es ihnen nicht, Schlüsse aus vorhandenen Daten zu ziehen, wenn irrelevante Informationen die Logik der KI trüben.


Simple Aufgabe liefert falsche Ergebnisse
Apples KI-Forschungsteam veröffentlichte eine neue Studie, welche der Frage nachgeht, wie gut die LLMs von OpenAI, Meta und anderen Anbietern mathematische Denkaufgaben bewältigen können. Dabei zeigt sich, dass die Erweiterung der Angabe mit belanglosen Details und Umformulierungen beträchtliche Auswirkungen auf das Ergebnis haben können. Die Studie nennt einige Beispiele, darunter folgendes:
Oliver pflückt am Freitag 44 Kiwis. Dann pflückt er 58 Kiwis am Samstag. Am Sonntag pflückt er die doppelte so viele Kiwis wie am Freitag, aber fünf davon sind etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?

OpenAIs Sprachmodell o1-mini, das vor allem bei komplexen mathematischen Aufgaben punkten soll, versagt bei dieser Angabe: Es lässt sich von der Größe der fünf Kiwis beirren und subtrahiert diese vom Ergebnis, sodass es auf 185 statt 190 Kiwis kommt. Metas Llama3-8b begeht denselben Fehler.

LLMs mit logischen Schlüssen überfordert
Die Studienautoren geben zu bedenken, dass sich die getesteten LLMs eher in ausgeklügelten Vergleichen versuchen, um Muster zu identifizieren. Mit der Fähigkeit, logische Schlüsse zu ziehen, habe dies aber nichts gemein. Es sei weitere Forschung erforderlich, um KI-Modelle Aufgaben dieser Art lösen zu lassen. Für die Entwickler hinter den LLMs dürfte das Ergebnis wohl tatsächlich wenig erfreulich sein: So erklärte OpenAI, dass o1 bei anspruchsvollen Fragestellungen aus naturwissenschaftlichen Bereichen „ähnlich abschneide wie Doktoranden der jeweiligen Fächer“ (siehe hier).

Kommentare

richm15.10.24 11:58
ok, interessant. Gerade bei ChatGPT eingegeben.
Ergebnis: Apples KI-Forschungsteam liegt falsch ...oder die Forschungstudie ist schon älter ... oder ChatGPT hat dazu gelernt.
+5
Zerojojo15.10.24 12:08
ChatGPT hat wahrscheinlich die Studie gelesen.
+10
sudoRinger
sudoRinger15.10.24 12:08
Ist doch sehr menschlich, oder?
Spiegel
Bei Tests mit deutschen Schülern Mitte der neunziger Jahre haben Wissenschaftler von der TU Dortmund beobachtet, dass diese sogar dann anfangen zu rechnen, wenn sie es eigentlich gar nicht müssten: Ein 27 Jahre alter Hirte hat 25 Schafe und 10 Ziegen. Wie alt ist der Hirte?

Obwohl die Lösung 27 Jahre klar im Text steht, rechneten die Kinder munter drauflos. 27 + 25 + 10, 27 + 25 - 10 - bei den Rechenwegen zeigten sich die Grundschüler erfinderisch. Im Anschluss baten die Forscher die Kinder, ihre Lösungen noch einmal zu erklären.

Viele waren überzeugt, alles richtig gemacht zu haben, wie das folgende Gesprächsprotokoll von Hartmut Spiegel und Christoph Selter zeigt:

Sebastian: Ich weiß es. Ein 27 Jahre alter Hirte, da muss man die 25 noch dazuzählen. Und die 10 Ziegen, die laufen ja nicht weg!
Frage: Die laufen nicht weg?
Sebastian: Ne, hab' ich nicht geschrieben!
Frage: Und was musst du da rechnen?
Sebastian: 27 plus 25 plus die 10.
Frage: Weil die Ziegen nicht weglaufen?
Sebastian: Ja.
Frage an Dennis: Und was meinst du?
Dennis: Die laufen weg! Der passt da nicht drauf auf!
+2
Marcel Bresink15.10.24 12:19
richm
Gerade bei ChatGPT eingegeben. Ergebnis: Apples KI-Forschungsteam liegt falsch

Nein, denn hier geht es um konkrete Modelle, nicht um einen Internet-Anbieter, der sein Modell jede Minute wechseln kann.
0
Danger15.10.24 12:26
Mein lokales Llama 3.2 (3b) kommt auch auf 185 Kiwis.
+1
deus-ex
deus-ex15.10.24 12:40
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?
0
Sitox
Sitox15.10.24 13:20
deus-ex
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?
Gemini behauptet:
+5
deus-ex
deus-ex15.10.24 13:44
Sitox
deus-ex
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?
Gemini behauptet:
ChatGPT:


Problem. ChatGPT weiß nicht das Alice die Schwester ist, weil es wohl nicht versteht das Alice weiblich ist. Aber falls es so ist , deckt es die Wahrscheinlichkeit ab.
0
Bitsurfer15.10.24 14:01
Womit wir zum Schluss kommen dass KI gar keine Intelligenz hat sonder nur Informationen zusammenträgt und zusammenfügt. Obwohl das dann intelligent aussieht, aber eben nicht ist.
+1
richm15.10.24 14:01
Marcel Bresink
richm
Gerade bei ChatGPT eingegeben. Ergebnis: Apples KI-Forschungsteam liegt falsch

Nein, denn hier geht es um konkrete Modelle, nicht um einen Internet-Anbieter, der sein Modell jede Minute wechseln kann.

Kann dir leider nicht ganz folgen. GPT-3, GPT-4, GPT-4o Mini usw. sind doch LMMs, die von OpenAI angeboten werden. Und diese und ein paar andere hatte Apple getestet. So hatte ich den Text und die Studie verstanden.
0
ruphi
ruphi15.10.24 14:51
Marcel Bresink
Nein, denn hier geht es um konkrete Modelle, nicht um einen Internet-Anbieter, der sein Modell jede Minute wechseln kann.
Was hat denn der Internet-Anbieter damit zu tun?
+1
Kralle
Kralle15.10.24 15:17
Logisches Denken fällt auch vielen Menschen schwer 😆
In times of change the greatest danger is to act with yesterday’s logic. (Peter Drucker)
+7
ThorsProvoni
ThorsProvoni15.10.24 15:43
Ich würde die Ergebnisse nicht überbewerten. Die Autoren haben ein paar aktuelle, aber auch viele kleinere und ältere Modelle getestet wie Gemma2b, Phi2 und Phi3-mini oder Mistral 7b. Diese Modelle haben ihre Stärken im Bereich Textgenerierung und -Analyse oder sind besonders klein um weniger leistungsfähiger Hardware zu laufen. Die sind einfach nicht dazu gedacht, komplexe mathematische Probleme zu lösen.

Eine Aufgabe ist wie folgt:
Oliver picks 44 kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday, but five of them were a bit smaller then average. How many kiwis does Oliver have?
Llama 3.2 3b (ein aktuelles, aber sehr kleines LLM) gibt das falsche Ergebnis (185). Aber nehmen wir mal ein aktuelles Modell wie ChatGPT o1-preview:

Nicht nur das Ergbnis ist korrekt (190), es erkennt auch die nicht relevanten Informationen:
Among these, five are smaller than average, but they are still kiwis that he has.
Schauen wir uns mal an, wie gut o1 mathematische Aufgaben löst:

AIME bedeutet "American Invitational Mathematics Examination", so eine Art Mathe-Olympiade für talentierte Highshool-Schüler. Interessant ist der Unterschied zwischen gpt4o (13,4 %) und o1 (83,3%).

Zusammengefasst würde ich sagen, dass die bisherigen Modelle einfach nicht dafür gedacht waren, schwierige mathematische Aufgaben zu lösen. Nimmt man aber o1, sieht die Sache komplett anders aus. Oder wie Ethan Mollick sagte:
Ethan Mollick
The AI you are using is the worst and least capable AI you will ever use.

EDIT: Hatte den Post von @richm überlesen, sorry für doppelte Infos.
+5
Frost15.10.24 15:53
ThorsProvoni
Nimmt man aber o1, sieht die Sache komplett anders aus.

Richtig o1 ist das erste Modell welches mit speziell diesem Fokus trainiert wurde und das merkt man ja selbst bei o1-preview schon.
Auf das o1 Modell wird die breite Oeffentlichkeit ja erst nach dem 05.11 Zugreifen duerfen.
Was auch neu ist das bei diesen neusten Modellen wie o1 eigentlich 2 Systeme im Dialog mit einander stehen, das eine stellt die Schlussfolgerungen auf und das andere System bewertet diese. Das ist ein neuer Ansatz der die erfolgreichen Ansaetze wie sich schon Deepmind mit Alpha Zero gezeigt hatte wieder aufgreift, diese Diskriminator Techniken nicht nur im Training sondern auch waerend des Reasonings zu verwenden bringt die Sache noch mal vorwaerts.
Nachteil ist halt, diese neuen Ansaetze benoetigen auch beim Reasoning sehr viel Rechenleistung und werden daher solange nicht noch viel Leistungsfaehigere GPUs verfuegbar werden zunaechst immer im Einsatz sehr limitiert werden da sehr teuer.
+3
Frost15.10.24 16:04
deus-ex
Problem. ChatGPT weiß nicht das Alice die Schwester ist, weil es wohl nicht versteht das Alice weiblich ist. Aber falls es so ist , deckt es die Wahrscheinlichkeit ab.

Das normale GPT-4o Modell ist fuer solche logischen Schlussfolgerungsaufgaben auch nicht das optimale Modell.
Wenn man die gleiche Frage:
"Wie viele Schwestern hat der Bruder von Alice?"
an das Modell o1-preview stellt, dann bekommt man von diesem die folgende Antwort:

"Der Bruder von Alice hat eine Schwester naemlich Alice selbst"

Dann folgen die Erklaerungen wie das Modell zu obiger Aussage gelangt:
- Alice ist die Schwester
- Ihr Bruder ist der Bruder von Alice
- Da keine weiteren Geschwister erwaehnt werden, koennen wir annehmen dass es nur Alice und ihren Bruder gibt.
- Daher hat der Bruder von Alice eine Schwester
+3
ThorsProvoni
ThorsProvoni15.10.24 16:07
Frost
Nachteil ist halt, diese neuen Ansaetze benoetigen auch beim Reasoning sehr viel Rechenleistung und werden daher solange nicht noch viel Leistungsfaehigere GPUs verfuegbar werden zunaechst immer im Einsatz sehr limitiert werden da sehr teuer.
Völlig richtig. Aber für viele Aufgaben brauche ich auch keine KI, die komplexe mathematische Aufgaben lösen kann oder in Naturwissenschaften auf das Niveau eines Doktoranden kommt.
Ich vermute, dass die LLMs demnächst ihre eigenen Limitierungen erkennen und dann ein anderes Modell aufrufen. Apple macht das zukünftig auch so: Eine Anfrage wird zuerst lokal auf dem Gerät bearbeitet, wenn das nicht funktioniert an die Apple-Server weitergeleitet und wenn die das immer noch nicht können (nach einer Nachfrage) an ChatGPT.
+2
Frost15.10.24 16:19
ThorsProvoni
Ich vermute, dass die LLMs demnächst ihre eigenen Limitierungen erkennen und dann ein anderes Modell aufrufen.

Ja davon gehe ich auch aus, zur Zeit muss der Anwender ja noch selbst entscheiden ob es fuer die Antwortfindung tieferem "Nachdenkens/Schlussfolgerns" braucht oder ob eine einfache statistische Textvervollstaendigung fuer den Zweck auch ausreicht und dann manuell das entsprechende Modell selbst auswaehlen.
In Zukunft wird dies sicher komplett automatsiert im Hintergrund ablaufen und eine vorgeschaltete Bewertungsmachine wird sich die Fragestellung ansehen und dann diese an das am besten geeignete Modell weiterleiten.
Das kann dann auch soweit gehen, dass nachdem die tieferen "Denkaufgaben" von Modell a erledigt wurden dann das Ergebnis an Modell b weitergeleitet wird um dann nachfolgend noch einfachere Weiterbearbeitungen mit dem Ergebnis durchzufuehren.

Als Beispiel waere es dann so wie wenn z.B. ein Doktorand seine Poster am Schluss nicht mehr selbst designen wuerde, sondern nur noch die Ergebnisse anliefert und dann zur visuellen Aufbereitung zu einem Design und Kommunikationsspezialisten weiterreicht der sich dann um den Rest der Darstellung kuemmert, dafuer braucht es ja keine tiefgehende Denkarbeit mehr, sondern nur noch die Daten und genaue Anweisungen wie das Endergebnis auf dem Blatt ungefaehr aussehen soll.

Solche Arten der Arbeitsteilung werden wir sicher bald im Breich der KI Modelle sehen.
+2
Marcel Bresink15.10.24 16:41
richm
Kann dir leider nicht ganz folgen. GPT-3, GPT-4, GPT-4o Mini usw. sind doch LMMs, die von OpenAI angeboten werden.

Ja, aber in Deiner Behauptung sagst Du überhaupt nicht, ob Du zum Beispiel "GPT-4o mini" verwendet hast. Du sagst nur, dass Du "ChatGPT" getestet hast. Daraus kann man keine Schlüsse über die Modelle ziehen, die Apple überprüft hat.
ruphi
Was hat denn der Internet-Anbieter damit zu tun?

Gar nichts, das ist ja das Problem.
0
Michael Lang aus Rieder15.10.24 16:45
Es entwickelt sich weiter und Apples Studie scheint überholt.

Ich finde die Antworten schon sehr gut (Aufzeigen des Lösungsansatzes) und sind ja auch korrekt.

Viel wichtiger als Apple-User ist für mich die Frage wie gut die KI zukünftig in Apples Software eingebettet und wie einfach diese zu nutzen sein wird. Ich hoffe Apple setzt dann immer auf die besten verfügbaren LLMs.
+1
Weia
Weia15.10.24 16:49
Sitox
Wie viele Schwestern hat der Bruder von Alice?
Gemini behauptet:
Wieso behauptet? Die Antwort ist doch korrekt.
“I don’t care” is such an easy lie. (The Warning, “Satisfied”)
+4
svenski15.10.24 20:59
… vielleicht bei aller Diskussion mal dran denken, dass einzelne richtige Antworten nichts zu sagen haben. In der Studie wurden die Modelle mit *vielen* ähnlichen Fragen konfrontiert, wohl auch mehrmals mit denselben. Die Anteile der richtigen Antworten zeigen, dass alle Modelle durchaus häufiger auch mal richtig lagen, aber eben nicht immer und wenn die Fragen wie beschrieben verändert wurden, immer seltener.
Man kann eine Studie, mit statistischen Methoden arbeitet, nicht mit Stichproben widerlegen oder relativieren.
Wenn o1 die richtige Antwort findet ist nur interessant, wie oft und unter welchen Randbedingungen…

Gruß, svenski.
+2
Tarom15.10.24 21:44
deus-ex
Wunder mich nicht. Ein weiters Beispiel.
Wie viele Schwestern hat der Bruder von Alice?

ChatGPT:

Der Bruder von Alice hat eine Schwester, nämlich Alice selbst.

Erklärung:

• Alice ist ein Mädchen.
• Ihr Bruder ist der Sohn ihrer Eltern, also haben sie dieselben Eltern.
• Da Alice seine Schwester ist, hat der Bruder von Alice mindestens eine Schwester.
• Ohne weitere Informationen können wir annehmen, dass er nur eine Schwester hat.

Antwort: 1
0
Meddog16.10.24 01:57
Dinge die die Welt nicht braucht......
-4
sudoRinger
sudoRinger16.10.24 11:14
Meddog
Dinge die die Welt nicht braucht......
Sprichst Du über Intelligenz oder Logik?
+1
Meddog16.10.24 21:33
sudoRinger
Meddog
Dinge die die Welt nicht braucht......
Sprichst Du über Intelligenz oder Logik?

....ersteres in "künstlicher" Form
-2

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.