Push-Nachrichten von MacTechNews.de

Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

iOS 18 und macOS 15: Wie Apple der Sprach-KI das Halluzinieren austreiben will

Was sämtliche LLMs an Schwächen mitbringen, ist fehlende Präzision und Verlässlichkeit. Sie reden einfach gerne vor sich hin, schmücken aus, fügen hinzu, fantasieren, halluzinieren. Das Modell hat keinerlei Verständnis von dem, was es gerade wortreich darbietet und auch wenn viele Ausgaben wie kreative Meisterwerke klingen, reiht es doch nur gebräuchliche Wortfolgen aneinander. Die sprachliche Qualität, welche mitunter entsteht, täuscht daher leicht über mangelhafte Inhalte hinweg. Dies ist aber ein ganz grundlegendes Problem, denn aktuelle Sprachmodelle werden oft für andere Zwecke verwendet, als sie ursprünglich vorgesehen waren. Eine Suchmaschine zu ersetzen und faktisch korrekt zu arbeiten, ist genau nicht die Stärke – ein Grund, warum Apple angeblich lange sehr skeptisch war.

Fakten vs. Erzählung
Ein ganz profanes Beispiel ist, sich nach dem Todestag einer bekannten Person zu erkundigen. Die inhaltlich korrekte Antwort wäre schlicht der 12. Juli 2022, doch ein Chatbot könnte manchmal durchaus Phrasen wie "Leider verstarb er bei sommerlichen Temperaturen am 12. Juli im Kreise seiner Angehörigen" liefern – ohne dass Temperatur oder Umstände überhaupt gesichert sein. In einem weiteren Dialog und nach den Gründen für die Ausschmückungen gefragt, würde ChatGPT ausführen, dass es am 12. Juli wahrscheinlich warm war und Menschen sehr oft im Kreise ihrer Angehörigen versterben.

Anweisungen für das Sprachmodell aufbereiten
In der (inzwischen verschwundenen) Beta von macOS 15.1 war ein Fund zu machen, wie Apple Halluzinieren und Erfinden bei Textzusammenfassungen verhindern will. Oft ist eine vom Nutzer eingegebene Frage nicht das, was auch wirklich an das Modell durchgestellt wird. Stattdessen "übersetzt" das jeweilige System den Inhalt in eine Sprachform, mit der das Sprachmodell am besten klarkommt und die hoffentlich optimalen Ergebnisse liefert. Aus einem "male eine Tanne im Winter" würde daher vielleicht als Zwischenschritt der Prompt "male ein Bild, das eine winterliche Landschaft zeigt. Schatten der Tannenzweige fallen auf den schneebedeckten Boden (....)" erzeugt.

Genaue Anweisungen, was zu tun ist
Apples Smart Reply impft das Sprachmodell zuerst dahingehend, die Rolle zu erklären: "Du bist ein hilfreicher Mail-Assistent, der relevante Fragen aus der Nachricht entnimmt und dann eine kurze Antwort erstellt." Weitere Ansagen, von denen der Nutzer gar nichts sieht, sind Anweisungen wie "gehe nur auf Fragen ein, die explizit in der Mail vorkommen" oder "Nachfragen sollen kurz sein und nicht länger als acht Worte enthalten", "wenn du keine Fragen findest, dann gib eine leere Liste aus" und "formatiere die Ausgaben als json".

...und zuletzt zwei Verbote
Noch eine ganz elementare Ansage macht Apple dem Sprachmodell aber: "Du darfst nicht halluzinieren. Du darfst keine Fakten erfinden". Das mag grotesk klingen, ist aber tatsächlich ein Weg, um LLMs zu mehr Präzision zu zwingen. Wer ChatGPT eine Biographie schreiben lässt, erhält auf die Anweisungen "Erzähle die Lebensgeschichte von Martin Luther" andere Ergebnisse, als auf "Erzähle die Lebensgeschichte von Martin Luther, verwende aber nur gesicherte Fakten und erfinde nichts" – sofern ein derartiger Zusatz nicht ohnehin vom KI-System ohne Wissen des Nutzers eingefügt wird.

MacStammbaum 11 und MobileFamilyTree 11 sind er...

Das Apple-Frühjahr 2025

Apple veröffentlicht macOS 15.3 (Aktualisierung...

Kurz: "Racist" als "Trump" verstanden: Apples k...

Apples Frühjahrs-Kollektion – neue Farben für Z...

In den Startlöchern: Mac Studio mit M4 Max, abe...

iOS 18.4, macOS 15.4: Erste Beta erschienen – V...

PIN-Code erraten: Dauer

Kommentare

BigTahunaBurger07.08.24 08:44

„Halluzinieren“, „dichten hinzu“, „schmücken aus“. Zeigt doch nur, wie menschlich die AIs schon geworden sind.

-1

Sebbo4Mac07.08.24 08:52

Naja, vielleicht zeigt es auch nur, wie sehr wir sie vermenschlichen. Man hätte ja auch andere Begriffe für das Verhalten einer Maschine wählen können als die, die bereits menschliche Wesenszüge beschreiben..🤷‍♂️

+12

Moranai07.08.24 09:16

LLMs können halt nicht denken bzw. nicht wirklich von Fiktion und Fakt unterscheiden. Liegt in der Art und Weise wie sie funktionieren.

Legoman07.08.24 09:22

Einer der Gründe, warum ich mich nie auf Textzusammenfassungen oder ähnliches verlassen und auch nie eine KI meine Hausarbeiten schreiben lassen würde.. Geistern auch genügend Bilder durch die Gegend, wo die KI eine Anleitung schreiben und bebildern sollte und es kam nur absurder Blödsinn bei raus. (Zeig, wie man einen Pflaumenstreuselkuchen backt.)

Alanin07.08.24 09:27

Das hat halt einfach technische Gründe. Es ist halt wahrscheinlicher, dass auf Token im Zusammenhang von Sterbedaten solche Token kommen, die den Kram ausschmücken. Sicherlich sind die meisten Texte über irgendwelche Sterbedaten Sterbeanzeigen, da wird halt so ausgeschmückt.

Dass man es erfinden oder halluzinieren nennt, ist irreführend.

-4

Peter Eckel07.08.24 09:32

Alanin

Dass man es erfinden oder halluzinieren nennt, ist irreführend.

Stimmt. Der korrekte Fachbegriff ist "Bullshit": (Link geht zum seriösen Springer-Verlag, nicht zu Axel!)

Ceterum censeo librum facierum esse delendum.

piik07.08.24 09:48

Moranai

LLMs können halt nicht denken bzw. nicht wirklich von Fiktion und Fakt unterscheiden. Liegt in der Art und Weise wie sie funktionieren.

Das trifft auch auf viele Menschen zu. Mal von einer Verschwörungstheorie gehört?
Insofern ist Dein zweiter Satz eine Widerlegung Deiner Aussage, weil Du genau das glaubst, aber den Unterschied nur in eine Phrase packst.

-2

Wessalius07.08.24 09:53

Ich habe letztens versucht ChatGPT davon zu überzeugen, dass die Erde eine Scheibe ist. Hat leider nicht geklappt.

Dunkelbier07.08.24 10:01

BigTahunaBurger

„Halluzinieren“, „dichten hinzu“, „schmücken aus“. Zeigt doch nur, wie menschlich die AIs schon geworden sind.

Hast du nur mit Schwaflern zu tun? Für mich ist das nicht im mindesten "menschlich". Ein Mensch weiß, wann er etwas ausschmücken muss. Und selbst dann sollten es zumindest halbwegs Fakten sein.

Ich kann dieser Schwafelmaschine nur sehr wenig abgewinnen. Schlicht, weil es seinen eigenen Wortdurchfall schlicht nicht versteht.

Schlimm wird es wenn man eine bestimmte Funktion bei einem Gerät nicht findet und dann diese Maschine fragt. Statt zu sagen, dass es das selbst nicht weiß, erfindet er einfach eine Schritt-für-Schritt Anleitung, die so gar nicht geht, weil die entsprechenden Menüpunkte gar nicht gibt bei diesem Gerät. Reine Zeitverschwendung.

Dunkelbier07.08.24 10:05

piik

Verschwörungstheoretiker können oft deswegen nicht Fakt und Unsinn unterschieden, weil sie oft selbst gut bestätigte wissenschaftliche Fakten einfach ignorieren wenn es nicht in ihr narrativ passt.

Raziel107.08.24 12:00

Dunkelbier

BigTahunaBurger

„Halluzinieren“, „dichten hinzu“, „schmücken aus“. Zeigt doch nur, wie menschlich die AIs schon geworden sind.

Dann hast du einfach falsch gefragt. Auf die Frage kommt es eben an sonst erhält man eben auch eine dementsprechende offene oder auch inkorrekte Antwort. Vor allem wenn der Kontext fehlt oder der Wunsch nicht genau genug formuliert wurde. "Schwafeln" ist quasi notwendig um dann überhaupt eine Antwort nach eigenem besten Denken geben zu können. Ob es dann das ist was der andere hören wollte ist offen. Ist bei uns Menschen genau gleich. Auch das mit dem "Verständnis fürs eigene Geschwafel" stimmt so nicht. Ich denke du solltest dich da mehr mit der Technik auseinander setzen falls es dich interessiert (ist aber auch ein echt komplexes Thema)

frankh07.08.24 13:23

Alanin

Wer diesen Beitrag abgewertet hat, hat LLMs nicht verstanden. Die funktionieren exakt so.

Und das was apple da macht ist "ganz normales" prompt engineering. So macht man das halt, wenn man mit LLMs arbeitet bzw. einen prompt-basierten Assistenten baut.

-1

Dunkelbier07.08.24 16:35

Raziel1

Ich benutze es oft genug. Es hat mir sogar schon meine eigenen Codeschnpisel als Lösung vorgeschlagen.

Falsch gefragt? Ich hatte mal einem Samstag gefragt: "Hat das Geschäft XXX in YYY heute geöffnet?"

Antwort: "Ja, das Geschäft XXX in YYY hat heute geföffnet! Die Öffnungszeiten sind von Montag bis Freitag von 09:00 Uhr bis 17:00 Uhr und sonntags von 09:30 Uhr bis 18:00 Uhr"

Und jetzt kommt Du.
Und nein, es war der richtige Laden. Die Schreibweise ist einzigartig.

Ich bleibe dabei: Das Ding ist struntzdumm.

-2

Raziel107.08.24 17:06

Tja das ist dann schade aber du hast ja meine Aussagen gerade selbst bestätigt

Mir hat es sogar schon oft bei Codeproblemen mir individuellen Lösungen geholfen, welche so online nicht zu finden waren. So gehen die Erfahrungen halt auseinander. Wir verwenden GPT Abteilungsweit täglich und könnten nicht zufriedener sein.

ela08.08.24 07:55

LLM sind Statistiken. Es ist erstaunlich, wie weit man mit diesen Ansatz kommt. Keine Frage. es ist dann aber auch erstaunlich wie unglaublich offensichtlich so ein System daneben liegen kann (heute ist Samstag, hat das Geschäft heute geöffnet Ja! Hat Mo-Fr und am So geöffnet )

Wir Anwendende dürfen nicht zu viel in das System interpretieren - so verlockend es ist. Das LLM hat keine Idee davon was ein Samstag ist oder wie ein Streuselkuchen schmecken sollte.

Zusammenfassungen können funktionieren - oder komplett falsche Aussagen ergeben oder für uns wichtiges weglassen - LLM hat keine Idee davon welcher Fakt für uns im jeweiligen Kontext der wichtigere ist. Das passt statistisch häufig - aber nicht immer.

Beim coding genauso. Es können funktionierende Lösungen als Antwort kommen. Es muss nicht die beste Lösung sein und wir sollten die Lösungen verstehen und ggf. korrigieren.

Ich bekam mal nach bestimmt 10-20 Frage-iterationen eine Kommandozeile um eine Auswertung auf textdateien zu bekommen. Hat funktioniert. Dann habe ich herkömmlich Google bemüht und etwas man gelesen und hatte in einem Bruchteil der Zeit eine viel kürzere Lösung die mindestens 20x so schnell gelaufen ist

Ein Kollege präsentierte das coding Feature. Es sollte zufällig ein enum Wert zurück gegeben werden. Der code war syntaktisch korrekt - nur das Random() wurde ohne Salt initialisiert … hätte man es mal getestet - mehr als 1x - wäre aufgefallen, dass immer dieselbe Reihe von Werten geliefert würde … das war MIR direkt aufgefallen (wurde im Meeting von niemandem sonst angesprochen) und ich frage mich, was für Dinge in anderen Funktionen schlummern, die oft leichtfertig direkt von der LLM übernommen werden?

Das ist ein Hype gerade und eine faszinierende Demo - wie damals dieses „Lisa“(?) in Basic
Ich bin nicht so begeistert, dass Apple sich genötigt sah, da zu diesem Zeitpunkt aufzuspringen. Ich lasse mich gerne positiv überraschen! Entweder das wird toll und Siri kann mit einer Ansage 5 Dinge gleichzeitig entgegennehmen und ausführen … oder das fliegt Apple so dermaßen um die Ohren … schauen wir mal

dundo08.08.24 10:38

Da muss ich an die „Büroklammer“ von MS Word denken

Am Ende bereust du, es nicht getan zu haben. Carpe diem.

Legoman08.08.24 14:21

Passt grad:
Meta: Chatbot bestreitet Attentat auf Donald Trump

"Meta musste sich nach Kritik aus dem politischen Lager der Trump-Anhänger rechtfertigen. Angeprangert wurde, dass sich der Chatbot Meta AI erst weigerte, Fragen zu dem Attentat auf Trump zu beantworten – und dann zum Teil behauptete, es habe nie stattgefunden. ..."

frankh08.08.24 17:58

Dunkelbier

Raziel1

Dann hast du einfach falsch gefragt. Auf die Frage kommt es eben an sonst erhält man eben auch eine dementsprechende offene oder auch inkorrekte Antwort.

Ich benutze es oft genug. ...

Falsch gefragt? Ich hatte mal einem Samstag gefragt: "Hat das Geschäft XXX in YYY heute geöffnet?"

Antwort: "Ja, das Geschäft XXX in YYY hat heute geföffnet! Die Öffnungszeiten sind von Montag bis Freitag von 09:00 Uhr bis 17:00 Uhr und sonntags von 09:30 Uhr bis 18:00 Uhr"

Und jetzt kommt Du.
Und nein, es war der richtige Laden. Die Schreibweise ist einzigartig.

Ich bleibe dabei: Das Ding ist struntzdumm.

AUA, das tut weh, sorry. LLM _nicht_ verstanden. Natürlich ist es dumm. Und es ist keine Suchmaschine und hat keine aktuellen Infos über irgendeinen Laden heute oder das Wetter oder so!

Erst vor Kurzem hat OpenAI eine Internetsuche hinzugefügt, mit der sowas dann _vielleicht_ beantwortet werden kann. Das ist aber hintendran gebastelt und funktioniert nur, wenn Dein Prompt als "Suchaufgabe" interpretiert wird (DAS ist eine LMM-Fähigkeit). Dann wird aus Deiner Frage ein Suchstring für bing und google erzeugt (DAS ist auch eine LMM-Fähigkeit) und eine Suche ausgelöst (die macht das LLM nicht). Aus den von den Suchmaschinen gefundenen Webseiten (typisch eine Handvoll) wird versucht, die Öffnungszeiten herauszulesen (das kann kompliziert sein und ist KEINE Fähigkeit eines LMM sondern braucht u.U. spezielle Parser) und Dir eine Antwort zu formulieren (DAS ist auch eine LMM-Fähigkeit).

-2

iOS 18 und macOS 15: Wie Apple der Sprach-KI das Halluzinieren austreiben will

Kommentare

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.