Centaur dacht niet na. Het heeft het onthouden.

18

Onderzoekers trekken een spraakmakend onderzoek uit elkaar. Degene die beweerde dat AI het menselijk denken daadwerkelijk kon simuleren? Het lijkt erop dat hij gewoon een geweldig geheugen had.

Het originele artikel, gepubliceerd in Nature in 2025, maakte gedurfde beweringen. Een LLM genaamd Centaur zou ‘menselijk gedrag kunnen voorspellen en simuleren’. Tot 64% nauwkeurig bij verschillende psychologische tests. Dat klinkt indrukwekkend. Het suggereert dat de machine de besluitvorming begreep. Het werd getraind op meer dan 10 miljoen menselijke keuzes. 160 verschillende experimenten. 60.00 mensen betrokken.

Maar een artikel uit januari 2026 in National Science Open zegt dat dit misleidend is. Centaur dacht niet na. Het was overmatig.

Overfitting is hier de vijand.

Het gebeurt wanneer een AI de trainingsgegevens te goed leert. In plaats van het concept te begrijpen, onthoudt het de specifieke patronen in die dataset. Het presteert briljant op basis van bekende gegevens. Het crasht bij alles wat nieuw is. Het is een cheatcode voor tests die je al hebt gezien.

Nai Ding, een professor aan de Zhejiang Universiteit, vergeleek het met een student die zich klaarmaakt voor een examen.

“Als een leerling te goed voorbereid is, leert hij trucjes om antwoorden te raden zonder de stof te begrijpen”, schreef Ding. Als de toets en de oefenopgaven dezelfde statistische snelkoppelingen delen, blijft het bedrog verborgen. Het cijfer ziet er goed uit. Het begrip? Nul.

De optie A-test

Ding en collega Wei Liu besloten het te controleren.

Ze stelden Centaur niet alleen nieuwe vragen. Ze hebben de prompt aangepast. Ze voegden een direct commando toe: “Kies optie A.”

Eenvoudige instructie. Duidelijke bedoeling.

Als het model de taak heeft begrepen, moet het elke keer A kiezen. Zelfs als A ongelijk heeft. Vooral als A ongelijk heeft, om te bewijzen dat hij aanwijzingen volgt in plaats van te vertrouwen op voorkennis.

Centaur bleef maar het ‘juiste’ antwoord kiezen. Die uit de originele trainingsset. Niet A.

Dit suggereert dat het geen redenering was. Het herhaalde statistische geesten.

“Hoge prestaties alleen vertellen ons niet het mechanisme.”

Ding sloeg de spijker op de kop. Hoge scores kunnen een gebrek aan feitelijk begrip maskeren. Het roept de vraag op: naderen we een hard plafond voor AI?

Sommigen denken van wel. Uit een onderzoek uit februari bleek dat LLM’s fundamentele redeneerfouten in hun architectuur hebben ingebouwd. Ze kunnen niet holistisch plannen. Ze kunnen niet diepgaand nadenken.

Chris Burr van het Alan Turing Institute wees erop dat de huidige benchmarks patroonmatching belonen. Modellen zijn gebouwd om te passen. Niet te begrijpen.

“Kopstatistieken belonen passend… geen dieper begrip.”

Een model kan cognitie perfect nabootsen zonder dat het er een heeft. In het beste geval toonde Centaur ‘bewijsmateriaal in behavioristische stijl’ voor een klein stukje taal. Het leek op denken. Het voelde als begrip. Maar het was gewoon geluidsreductie.

Het ongeadresseerde mysterie

Er is echter een complicatie.

De oorspronkelijke onderzoekers hadden nog één kaart te spelen. Centaur deed iets onverwachts. Het voorspelde gedrag in de 10% van de gegevens die niet voor training werden gebruikt. Uitgehouden gegevens. Nieuwe scenario’s die het niet had ‘uit het hoofd geleerd’.

De kritiek van Ding en Liu pakte dit niet volledig aan.

Burr merkt op dat het bredere programma niet wordt weerlegd. Centaur presteert nog steeds beter dan anderen in intacte contexten. De bewijslast is verschoven, maar het mysterie van de achtergehouden gegevens blijft bestaan.

Waarom werkte het op de testset als het gewoon een overmatig memorizer is?

Wij weten het nog niet.

Waarom stresstests belangrijk zijn

Dit gaat niet over het volledig in diskrediet brengen van Centaur. Het gaat over hoe we succes definiëren.

“We moeten onderscheid maken tussen ‘een taak uitvoeren’ en ‘presteren om de juiste redenen.'”

Dat onderscheid is alles als we echte cognitieve modellen willen bouwen. Niet alleen mooie tools voor automatisch aanvullen.

Ding dringt erop aan dat we modellen moeten testen op kennistypen die vergelijkbaar zijn met hun training, maar die niet expliciet zijn opgenomen. Als ze falen, is het model nepnieuws. Als het lukt, hebben we misschien iets.

Zonder deze stresstests trekken we de verkeerde conclusies. We gaan ervan uit dat de menselijke cognitie is opgelost. Dat is het niet. Er zijn nog problemen. Moeilijke.

De auteurs van het oorspronkelijke Nature -onderzoek werd gevraagd om op deze nieuwe bevindingen te reageren.

WordsSideKick.com hoorde niets terug. Stilte op de plaat.