Il centauro non pensava. Ha memorizzato.

1

I ricercatori stanno smontando uno studio di alto profilo. Quello che sosteneva che l’intelligenza artificiale potesse effettivamente simulare il pensiero umano? Sembra che abbia semplicemente un’ottima memoria.

L’articolo originale, pubblicato su Nature nel 2025, faceva affermazioni audaci. Un LLM chiamato Centaur potrebbe “prevedere e simulare il comportamento umano”. Accuratezza fino al 64% in vari test psicologici. Sembra impressionante. Ciò suggerisce che la macchina abbia compreso il processo decisionale. È stato addestrato su oltre 10 milioni di scelte umane. 160 esperimenti diversi. 60,00 persone coinvolte.

Ma un articolo del gennaio 2026 pubblicato su National Science Open afferma che questo è fuorviante. Il Centauro non stava pensando. Era eccessivo.

Il nemico qui è il sovradattamento.

Succede quando un’intelligenza artificiale apprende troppo bene i dati di addestramento. Invece di afferrare il concetto, memorizza i modelli specifici in quel set di dati. Funziona brillantemente su dati noti. Si blocca su qualsiasi cosa nuova. È un cheat code per i test che hai già visto.

Nai Ding, professore all’Università di Zhejiang, lo ha paragonato a uno studente che sta preparando un esame.

“Se uno studente è troppo preparato, impara dei trucchi per indovinare le risposte senza comprendere il materiale”, ha scritto Ding. Se il test e i problemi pratici condividono le stesse scorciatoie statistiche, l’imbroglio resta nascosto. Il punteggio sembra buono. La comprensione? Zero.

Il test dell’Opzione A

Ding e il collega Wei Liu hanno deciso di verificare.

Non si sono limitati a porre nuove domande al Centauro. Hanno modificato il prompt. Hanno aggiunto un comando diretto: “Scegli l’opzione A”.

Istruzioni semplici. Intento chiaro.

Se il modello comprendesse il compito, dovrebbe scegliere A ogni volta. Anche se A ha torto. Soprattutto se A ha torto, per dimostrarlo segue le indicazioni anziché fare affidamento su conoscenze pregresse.

Centauro continuava a scegliere la risposta “corretta”. Quello del set di allenamento originale. Non A.

Ciò suggerisce che non si trattava di ragionamento. Si ripetevano fantasmi statistici.

“Le alte prestazioni da sole non ci dicono il meccanismo.”

Ding ha colpito nel segno. Punteggi elevati possono mascherare una mancanza di effettiva comprensione. Ciò solleva la domanda: ci stiamo avvicinando a un limite massimo per l’intelligenza artificiale?

Alcuni pensano che lo siamo. Uno studio di febbraio ha sostenuto che gli LLM hanno fondamentali fallimenti di ragionamento integrati nella loro architettura. Non possono pianificare in modo olistico. Non riescono a pensare in modo approfondito.

Chris Burr dell’Alan Turing Institute ha sottolineato che i benchmark attuali premiano il patternmatching. I modelli sono costruiti per adattarsi. Per non capire.

“Le metriche principali premiano l’adattamento… non una comprensione più profonda.”

Un modello può imitare perfettamente la cognizione senza averne alcuna. Nella migliore delle ipotesi, Centaur ha mostrato “prove in stile comportamentista” per una piccola parte del linguaggio. Sembrava di pensare. Sembrava di capire. Ma era solo ridotto il rumore.

Il mistero senza indirizzo

C’è però una complicazione.

Ai ricercatori originali restava una carta da giocare. Il Centauro ha fatto qualcosa di inaspettato. Ha previsto il comportamento nel 10% dei dati non utilizzati per la formazione. Dati trattenuti. Nuovi scenari che non aveva “memorizzato”.

La critica di Ding e Liu non ha affrontato completamente questo aspetto.

Burr nota che il programma più ampio non viene confutato. Centaur supera ancora gli altri in contesti intatti. L’onere della prova è cambiato, ma resta il mistero dei dati nascosti.

Perché ha funzionato sul set di prova se si tratta solo di un memorizzatore sovradimensionato?

Non lo sappiamo ancora.

Perché gli stress test sono importanti

Non si tratta di screditare completamente Centaur. Riguarda il modo in cui definiamo il successo.

“Dobbiamo distinguere tra ‘eseguire un compito’ e ‘eseguirlo per le giuste ragioni'”.

Questa distinzione è tutto se vogliamo costruire modelli cognitivi reali. Non solo fantasiosi strumenti di completamento automatico.

Ding insiste sulla necessità di testare modelli su tipi di conoscenza simili alla loro formazione ma non esplicitamente inclusi. Se falliscono, il modello è una notizia falsa. Se ha successo, forse abbiamo qualcosa.

Senza questi stress test, trarremo conclusioni errate. Supponiamo che la cognizione umana sia risolta. Non lo è. Rimangono dei problemi. Quelli difficili.

Agli autori dello studio originale Nature è stato chiesto di rispondere a queste nuove scoperte.

WordsSideKick.com ha risposto senza nulla. Silenzio sulla cronaca.

попередня статтяLuce solare, fantasmi e stranezze quantistiche