Los investigadores están desmantelando un estudio de alto perfil. ¿El que afirmaba que la IA en realidad podía simular el pensamiento humano? Parece que acaba de tener un gran recuerdo.
El artículo original, publicado en Nature en 2025, hacía afirmaciones audaces. Un LLM llamado Centaur podría “predecir y simular el comportamiento humano”. Hasta un 64% de precisión en varias pruebas psicológicas. Eso suena impresionante. Sugiere que la máquina entendió la toma de decisiones. Fue entrenado en más de 10 millones de elecciones humanas. 160 experimentos diferentes. 60.000 personas involucradas.
Pero un artículo de enero de 2026 en National Science Open dice que esto es engañoso. Centauro no estaba pensando. Estaba sobreajustado.
El sobreajuste es el enemigo aquí.
Ocurre cuando una IA aprende demasiado bien los datos de entrenamiento. En lugar de captar el concepto, memoriza los patrones específicos de ese conjunto de datos. Funciona de manera brillante con datos conocidos. Se bloquea con cualquier cosa nueva. Es un código de trampa para pruebas que ya has visto.
Nai Ding, profesor de la Universidad de Zhejiang, lo comparó con un estudiante que se prepara para un examen.
“Si un estudiante está demasiado preparado, aprende trucos para adivinar las respuestas sin comprender el material”, escribió Ding. Si el examen y los problemas de práctica comparten los mismos atajos estadísticos, las trampas permanecen ocultas. La puntuación parece buena. ¿El entendimiento? Cero.
La opción A prueba
Ding y su colega Wei Liu decidieron comprobarlo.
No se limitaron a hacerle nuevas preguntas a Centauro. Modificaron el mensaje. Agregaron un comando directo: “Elija la opción A”.
Instrucción sencilla. Intención clara.
Si el modelo entendió la tarea, debería elegir A cada vez. Incluso si A está equivocado. Especialmente si A está equivocado, para demostrarlo se siguen instrucciones en lugar de depender del conocimiento previo.
Centaur siguió eligiendo la respuesta “correcta”. El del conjunto de entrenamiento original. No A.
Esto sugiere que no fue un razonamiento. Se repetían fantasmas estadísticos.
“El alto rendimiento por sí solo no nos indica el mecanismo”.
Ding dio en el clavo. Las puntuaciones altas pueden enmascarar una falta de comprensión real. Plantea la pregunta: ¿Nos estamos acercando a un techo rígido para la IA?
Algunos piensan que lo somos. Un estudio de febrero argumentó que los LLM tienen fallas de razonamiento fundamentales integradas en su arquitectura. No pueden planificar de manera integral. No pueden pensar en profundidad.
Chris Burr, del Instituto Alan Turing, señaló que los puntos de referencia actuales recompensan la coincidencia de patrones. Los modelos están diseñados para adaptarse. No para entender.
“Las métricas de titulares recompensan el ajuste… no una comprensión más profunda”.
Un modelo puede imitar la cognición perfectamente sin tener ninguna. En el mejor de los casos, Centaur mostró “evidencias de estilo conductista” para una pequeña porción de lenguaje. Parecía estar pensando. Se sintió como comprensión. Pero solo se redujo el ruido.
El misterio no abordado
Sin embargo, hay una complicación.
A los investigadores originales les quedaba una carta por jugar. Centauro hizo algo inesperado. Predijo el comportamiento en el 10% de los datos no utilizados para el entrenamiento. Datos retenidos. Nuevos escenarios que no había “memorizado”.
La crítica de Ding y Liu no abordó completamente este tema.
Burr señala que el programa más amplio no está refutado. Centaur todavía supera a otros en contextos intactos. La carga de la prueba ha cambiado, pero el misterio de los datos ocultos permanece.
¿Por qué funcionó en el equipo de prueba si es sólo un memorizador sobreajustado?
No lo sabemos todavía.
Por qué son importantes las pruebas de estrés
No se trata de desacreditar a Centaur por completo. Se trata de cómo definimos el éxito.
“Necesitamos distinguir entre ‘realizar una tarea’ y ‘realizarla por las razones correctas'”.
Esa distinción lo es todo si queremos construir modelos cognitivos reales. No solo sofisticadas herramientas de autocompletar.
Ding insiste en que debemos probar modelos con tipos de conocimiento similares a su formación pero que no estén incluidos explícitamente. Si fracasan, el modelo es una noticia falsa. Si tiene éxito, tal vez tengamos algo.
Sin estas pruebas de estrés, sacamos conclusiones equivocadas. Asumimos que la cognición humana está resuelta. Que no es. Quedan problemas. Los duros.
Se pidió a los autores del estudio original de Nature que respondieran a estos nuevos hallazgos.
Live Science recibió respuesta sin nada. Silencio en el acta.

















