Apple-Studie: KI-Modelle scheitern an logischen Denkaufgaben
Apple legt mit Apple Intelligence eine Reihe an KI-Funktionen vor, welche Schritt für Schritt mit Software-Updates im iPhone, iPad sowie Mac Einzug halten. Einen klassischen Chatbot bietet das Unternehmen indes nicht an, stattdessen soll Siri bald zu weit klügeren Antworten fähig sein und sich bei komplexen Fragestellungen an ChatGPT wenden, um auf OpenAIs Large Language Model zugreifen zu können. Diese Modelle scheinen aber bei vielen Aufgaben, die „KI-Reasoning“ erforderlich machen, recht deutlich zu versagen: Oftmals gelingt es ihnen nicht, Schlüsse aus vorhandenen Daten zu ziehen, wenn irrelevante Informationen die Logik der KI trüben.
Simple Aufgabe liefert falsche ErgebnisseApples KI-Forschungsteam veröffentlichte eine neue
Studie, welche der Frage nachgeht, wie gut die LLMs von OpenAI, Meta und anderen Anbietern mathematische Denkaufgaben bewältigen können. Dabei zeigt sich, dass die Erweiterung der Angabe mit belanglosen Details und Umformulierungen beträchtliche Auswirkungen auf das Ergebnis haben können. Die Studie nennt einige Beispiele, darunter folgendes:
Oliver pflückt am Freitag 44 Kiwis. Dann pflückt er 58 Kiwis am Samstag. Am Sonntag pflückt er die doppelte so viele Kiwis wie am Freitag, aber fünf davon sind etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?
OpenAIs Sprachmodell o1-mini, das vor allem bei komplexen mathematischen Aufgaben punkten soll, versagt bei dieser Angabe: Es lässt sich von der Größe der fünf Kiwis beirren und subtrahiert diese vom Ergebnis, sodass es auf 185 statt 190 Kiwis kommt. Metas Llama3-8b begeht denselben Fehler.
LLMs mit logischen Schlüssen überfordertDie Studienautoren geben zu bedenken, dass sich die getesteten LLMs eher in ausgeklügelten Vergleichen versuchen, um Muster zu identifizieren. Mit der Fähigkeit, logische Schlüsse zu ziehen, habe dies aber nichts gemein. Es sei weitere Forschung erforderlich, um KI-Modelle Aufgaben dieser Art lösen zu lassen. Für die Entwickler hinter den LLMs dürfte das Ergebnis wohl tatsächlich wenig erfreulich sein: So erklärte OpenAI, dass o1 bei anspruchsvollen Fragestellungen aus naturwissenschaftlichen Bereichen „ähnlich abschneide wie Doktoranden der jeweiligen Fächer“ (siehe
hier).