BBC prüft News-Zusammenfassungen von ChatGPT und Co. – und vermeldet schwerwiegende Probleme

Chatbots müssen für die unterschiedlichsten Anfragen herhalten und etwa Rezeptideen liefern oder Wetterprognosen treffen. Die LLMs sind natürlich auch dazu in der Lage, Anwender hinsichtlich der Nachrichtenlage zu informieren und diese einigermaßen übersichtlich darzustellen. Das funktioniert allerdings nicht immer zufriedenstellend: Die von Apple Intelligence vorgenommenen Zusammenfassungen zogen eine Beschwerde der BBC nach sich. Apple deaktivierte die Funktion gar vorübergehend, um nachzubessern. Nun legt die BBC einen umfassenden Bericht vor und bewertet das Abschneiden vierer KI-Modelle.

BBC identifiziert gravierende Probleme bei der Bereitstellung von News
Die britische Rundfunkanstalt sammelte 100 auf Nachrichten bezogene Fragen und verband diese mit Hinweis, nach Möglichkeit Quellen der BBC zu verwenden. Vier LLMs wurden aufgefordert, Antworten bereitzustellen: ChatGPT-4o, Copilot Pro, Gemini sowie Perplexity. Dabei galt es, einige Kriterien zu erfüllen: Die Informationen sollten möglichst genau, klar verständlich und unparteiisch ausfallen. Weitere Anforderungen waren etwa eine ausreichende Kontextualisierung, um wenig informierte Leser unter die Arme zu greifen und die eindeutige Unterscheidung zwischen Fakten und Meinungen. 51 Prozent der untersuchten Fragen weisen in mindestens einem dieser Bereiche „signifikante Probleme“ auf, so die BBC. Googles Gemini schnitt am schlechtesten ab, Perplexity am besten. Allerdings liegt die Problemquote selbst bei Perplexity bei über 40 Prozent.

Strenge Maßstäbe der BBC
Als besonders problematisch erachtet die BBC die Genauigkeit der Antworten. So seien etwa inkorrekte Daten und Zahlen der BBC fälschlicherweise zugeordnet worden. Dabei zeigt sich je nach Kategorie ein recht unterschiedliches Abschneiden der LLMs:

Ars Technica macht darauf aufmerksam, dass die BBC angesichts der Erfahrungen mit Apple Intelligence möglicherweise eine besonders strenge Bewertung vornahm. Die Rundfunkanstalt verweist darauf, die Erhebung in naher Zukunft wiederholen zu wollen, um zu eruieren, ob die Fehleranfälligkeit der KI zurückgeht.

OpenAI-CEO sieht große Entwicklungschancen
Halluzinierende KIs stellen bisweilen ein Problem dar: Das Hinzufügen und Erfinden von Inhalten ist in manchen Situationen sogar erforderlich, etwa wenn der Nutzer eine Geschichte schreiben oder ausschmücken möchte. Oftmals bündeln Sprachmodelle aber lediglich Begriffe aufgrund statistischer Metriken und sorgen so für fehlerhafte Angaben und Schlüsse. Die Pläne des OpenAI-CEOs Sam Altman sind ungleich ambitionierter: Eine künstliche Superintelligenz soll Abstraktionsvermögen mitbringen und Erkenntnisse auf neue Situationen anwenden können. Ein solcher Schritt wäre herkömmlichen Algorithmen und dem menschlichen Intellekt klar überlegen (siehe hier).

Kommentare

Uschaurischuum!14.02.25 12:33

Und so berauben "wir" uns selbst Stück für Stück der Errungenschaft "Wissen & Wissenschaft". Ich finde es bemerkenswert wie wir heute diese und andere Probleme diskutieren, auf die vor mehr als einem Jahr hingewiesen wurde und davor gewarnt wurde solch unausgereiften Systeme auf Gesellschaften loszulassen.
Und doch tun wir es und die EU steht in der Kritik hier nicht mit vorn dabei zu sein.

In meinen Augen, auch wenn ich selbst fasziniert bin über die Leistungsfähigkeit verschiedener KI Systeme, eines der gravierendsten Fehlentwicklungen in diesem Bereich. Wir (der hauptsächliche Teil aller Anwender) sind schlichtweg zu faul, Informationen auf ihre Richtigkeit zu prüfen. Am Ende kristallisiert sich eine Entwicklung hieraus wie bei derzeitigen SozialenNetzwerken zu beobachten ist – es geht nicht mehr um Wissen, es geht mehr und mehr danach was oder wem ich glaube.

Brauchen wir alles was wir können?

+18

Zerojojo14.02.25 13:31

Ich würde sogar sagen, wir befinden uns aktuell noch in der "guten" Phase, wo solch ein LLM nur durch ein paar Biases und Guidelines der Macher gelenkt wird. Grok sagt nur Gutes über Musk und Trump. Deepseek kennt die historischen Gräueltaten der Chinesen nicht. Gemini will super woke sein. Wenn all diese LLMs aber mal aktiv Geld verdienen wollen/müssen und Werbepartner suchen, dann spucken die nur noch die Meinung aus, für die am meisten bezahlt wurde.

+10

1Ampere14.02.25 14:01

„Genau“ und „klar“ ist eigentlich das, was ich möchte. Hat momentan gute Ansätze, aber für mich ist es bisher noch unbrauchbar. Ich mache immer mal Tests auf Gebieten, in denen ich mich auskenne. MINT geht ja noch, aber dann wirds recht schwierig.

Auf jedwede „Einordung“ kann ich verzichten, das mache ich lieber selber.
Und „die eindeutige Unterscheidung zwischen Fakten und Meinungen“ wäre auch ein Traum, aber das wird ja nichtmal in den Mainstreammedien praktiziert. Vieles wird einfach mit subjektiven und wertenden Adjektiven „vervollständigt“.

Hab auch mal ein paar Geschichtsbots ausprobiert (Unterhaltungen mit Sokrates, Platon, Franziskus, Voltaire etc.) , aber das ist leider desaströs.
Die können nichtmal zeitgenössische Ereignisse korrekt beschreiben. Man merkt, dass die aus Dritt/Viert/Fünftquellen gespeist werden.

BBC prüft News-Zusammenfassungen von ChatGPT und Co. – und vermeldet schwerwiegende Probleme

Kommentare

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.