Le Centaure n’a pas réfléchi. Il a été mémorisé.

6

Les chercheurs sont en train de démonter une étude très médiatisée. Celui qui prétendait que l’IA pouvait réellement simuler la pensée humaine ? On dirait qu’il a juste un excellent souvenir.

L’article original, publié dans Nature en 2025, faisait des affirmations audacieuses. Un LLM nommé Centaur pourrait « prédire et simuler le comportement humain ». Jusqu’à 64 % de précision selon divers tests psychologiques. Cela semble impressionnant. Cela suggère que la machine a compris la prise de décision. Il a été formé sur plus de 10 millions de choix humains. 160 expériences différentes. 60 000 personnes impliquées.

Mais un article de janvier 2026 dans National Science Open affirme que cela est trompeur. Centaure ne réfléchissait pas. C’était du surapprentissage.

Le surapprentissage est l’ennemi ici.

Cela se produit lorsqu’une IA apprend trop bien les données d’entraînement. Au lieu de saisir le concept, il mémorise les modèles spécifiques de cet ensemble de données. Il fonctionne brillamment sur des données connues. Il plante sur tout ce qui est nouveau. C’est un code de triche pour les tests que vous avez déjà vus.

Nai Ding, professeur à l’Université du Zhejiang, l’a comparé à un étudiant qui prépare un examen.

“Si un élève est trop préparé, il apprend des astuces pour deviner les réponses sans comprendre le contenu”, a écrit Ding. Si le test et les problèmes pratiques partagent les mêmes raccourcis statistiques, la tricherie reste cachée. Le score s’annonce bon. La compréhension ? Zéro.

Le test de l’option A

Ding et son collègue Wei Liu ont décidé de vérifier.

Ils n’ont pas seulement posé de nouvelles questions au Centaure. Ils ont modifié l’invite. Ils ont ajouté une commande directe : « Veuillez choisir l’option A. »

Des instructions simples. Intention claire.

Si le modèle a compris la tâche, il devrait choisir A à chaque fois. Même si A a tort. Surtout si A a tort, pour prouver qu’il suit des instructions plutôt que de s’appuyer sur des connaissances préalables.

Centaure n’arrêtait pas de choisir la « bonne » réponse. Celui de l’ensemble d’entraînement original. Pas A.

Cela suggère qu’il ne s’agissait pas d’un raisonnement. C’étaient des fantômes statistiques répétitifs.

“Les hautes performances ne suffisent pas à nous renseigner sur le mécanisme.”

Ding a mis le doigt sur la tête. Des scores élevés peuvent masquer un manque de compréhension réelle. Cela soulève la question : approchons-nous d’un plafond strict pour l’IA ?

Certains pensent que oui. Une étude de février a démontré que les LLM ont des échecs de raisonnement fondamentaux intégrés dans leur architecture. Ils ne peuvent pas planifier de manière globale. Ils ne peuvent pas réfléchir en profondeur.

Chris Burr de l’Institut Alan Turing a souligné que les critères actuels récompensent la correspondance de modèles. Les modèles sont construits pour s’adapter. Ne pas comprendre.

“Les indicateurs principaux récompensent l’adéquation… pas une compréhension plus approfondie.”

Un modèle peut parfaitement imiter la cognition sans en avoir. Au mieux, Centaur a montré des « preuves de style behavioriste » pour une infime tranche de langage. Cela ressemblait à une réflexion. C’était comme comprendre. Mais c’était juste un bruit réduit.

Le mystère non résolu

Il y a cependant une complication.

Il restait aux chercheurs originaux une carte à jouer. Centaure a fait quelque chose d’inattendu. Il a prédit le comportement des 10 % de données non utilisées pour la formation. Données retenues. De nouveaux scénarios qu’il n’avait pas « mémorisés ».

Les critiques de Ding et Liu n’ont pas entièrement abordé ce sujet.

Burr note que le programme plus large n’est pas réfuté. Centaur surpasse toujours les autres dans des contextes intacts. La charge de la preuve a changé, mais le mystère des données retenues demeure.

Pourquoi cela a-t-il fonctionné sur l’ensemble de test s’il ne s’agit que d’un mémoriseur suréquipé ?

Nous ne le savons pas encore.

Pourquoi les tests de résistance sont importants

Il ne s’agit pas de discréditer entièrement Centaure. Il s’agit de la façon dont nous définissons le succès.

« Nous devons faire la distinction entre « accomplir une tâche » et « accomplir pour les bonnes raisons ». »

Cette distinction est essentielle si nous voulons construire de véritables modèles cognitifs. Pas seulement des outils de saisie semi-automatique sophistiqués.

Ding insiste sur le fait que nous devons tester des modèles sur des types de connaissances similaires à leur formation mais non explicitement inclus. S’ils échouent, le modèle est une fausse nouvelle. Si cela réussit, nous aurons peut-être quelque chose.

Sans ces stress tests, nous tirons de mauvaises conclusions. Nous supposons que la cognition humaine est résolue. Ce n’est pas le cas. Il reste des problèmes. Des durs.

Il a été demandé aux auteurs de l’étude originale Nature de répondre à ces nouvelles découvertes.

Live Science a reçu une réponse sans rien. Silence sur le disque.

попередня статтяLumière du soleil, fantômes et bizarreries quantiques