Forscher ziehen eine hochkarätige Studie auseinander. Derjenige, der behauptete, KI könne tatsächlich menschliches Denken simulieren? Es sieht so aus, als hätte es einfach eine tolle Erinnerung gehabt.
Das Originalpapier, das 2025 in Nature veröffentlicht wurde, enthielt kühne Behauptungen. Ein LLM namens Centaur könnte „menschliches Verhalten vorhersagen und simulieren“. Bis zu 64 % Genauigkeit bei verschiedenen psychologischen Tests. Das klingt beeindruckend. Es deutet darauf hin, dass die Maschine die Entscheidungsfindung verstanden hat. Es wurde auf über 10 Millionen menschliche Entscheidungen trainiert. 160 verschiedene Experimente. 60.000 Menschen beteiligt.
Aber ein Artikel in National Science Open vom Januar 2026 besagt, dass dies irreführend ist. Centaur dachte nicht nach. Es war überpassend.
Überanpassung ist hier der Feind.
Es passiert, wenn eine KI die Trainingsdaten zu gut lernt. Anstatt das Konzept zu begreifen, merkt es sich die spezifischen Muster in diesem Datensatz. Es funktioniert hervorragend mit bekannten Daten. Es stürzt bei allem Neuen ab. Es handelt sich um einen Cheat-Code für Tests, die Sie bereits gesehen haben.
Nai Ding, Professor an der Zhejiang-Universität, verglich es mit einem Studenten, der sich für eine Prüfung bückt.
„Wenn ein Schüler übervorbereitet ist, lernt er Tricks, um Antworten zu erraten, ohne den Stoff zu verstehen“, schrieb Ding. Wenn der Test und die Übungsaufgaben dieselben statistischen Abkürzungen haben, bleibt der Betrug verborgen. Die Punktzahl sieht gut aus. Das Verständnis? Null.
Der Option-A-Test
Ding und sein Kollege Wei Liu beschlossen, dies zu überprüfen.
Sie stellten Centaur nicht nur neue Fragen. Sie haben die Eingabeaufforderung geändert. Sie fügten einen direkten Befehl hinzu: „Bitte wählen Sie Option A.“
Einfache Anleitung. Klare Absicht.
Wenn das Modell die Aufgabe verstanden hat, sollte es jedes Mal A auswählen. Auch wenn A falsch ist. Vor allem, wenn A falsch liegt, muss man zum Beweis, dass es den Anweisungen folgt, statt sich auf Vorwissen zu verlassen.
Centaur wählte immer wieder die „richtige“ Antwort. Das aus dem Original-Trainingsset. Nicht A.
Dies deutet darauf hin, dass es sich nicht um eine Argumentation handelte. Es waren sich wiederholende statistische Geister.
„Hochleistung allein verrät uns nicht den Mechanismus.“
Ding hat den Nagel auf den Kopf getroffen. Hohe Punktzahlen können einen Mangel an tatsächlichem Verständnis verschleiern. Es stellt sich die Frage: Nähern wir uns einer harten Obergrenze für KI?
Manche denken, dass wir es sind. In einer Studie vom Februar wurde argumentiert, dass LLMs in ihrer Architektur grundlegende Argumentationsfehler eingebaut haben. Sie können nicht ganzheitlich planen. Sie können nicht in die Tiefe denken.
Chris Burr vom Alan Turing Institute wies darauf hin, dass aktuelle Benchmarks Mustervergleiche belohnen. Modelle werden passgenau gebaut. Nicht zu verstehen.
„Überschriftenmetriken belohnen Passung … nicht tieferes Verständnis.“
Ein Modell kann die Kognition perfekt nachahmen, ohne dass es welche gibt. Bestenfalls zeigte Centaur „behavioristische Beweise“ für einen winzigen Sprachausschnitt. Es sah nach Nachdenken aus. Es fühlte sich an wie Verständnis. Aber es wurde nur der Lärm reduziert.
Das ungelöste Geheimnis
Es gibt jedoch eine Komplikation.
Die ursprünglichen Forscher hatten noch eine Karte zum Ausspielen übrig. Centaur tat etwas Unerwartetes. Es prognostizierte das Verhalten der 10 % der Daten, die nicht für das Training verwendet wurden. Zurückgehaltene Daten. Neue Szenarien, die es nicht „auswendig gelernt“ hatte.
Die Kritik von Ding und Liu ging darauf nicht vollständig ein.
Burr stellt fest, dass das umfassendere Programm nicht widerlegt wird. Centaur übertrifft andere in intakten Kontexten immer noch. Die Beweislast hat sich verschoben, aber das Geheimnis der zurückgehaltenen Daten bleibt bestehen.
Warum hat es auf dem Testsatz funktioniert, wenn es sich nur um einen überangepassten Memorizer handelt?
Wir wissen es noch nicht.
Warum Stresstests wichtig sind
Dabei geht es nicht darum, Centaur gänzlich zu diskreditieren. Es geht darum, wie wir Erfolg definieren.
„Wir müssen unterscheiden zwischen ‚eine Aufgabe ausführen‘ und ‚aus den richtigen Gründen ausführen‘.“
Diese Unterscheidung ist alles, wenn wir tatsächliche kognitive Modelle erstellen wollen. Nicht nur schicke Autovervollständigungstools.
Ding besteht darauf, dass wir Modelle auf Wissenstypen testen müssen, die ihrem Training ähneln, aber nicht explizit einbezogen werden. Wenn sie scheitern, handelt es sich bei dem Modell um Fake News. Wenn es gelingt, haben wir vielleicht etwas.
Ohne diese Stresstests ziehen wir falsche Schlussfolgerungen. Wir gehen davon aus, dass die menschliche Erkenntnis gelöst ist. Das ist es nicht. Es bleiben noch Probleme. Harte.
Die Autoren der ursprünglichen Nature -Studie wurden gebeten, auf diese neuen Erkenntnisse zu antworten.
Live Science hat keine Antwort erhalten. Schweigen zur Akte.