Os pesquisadores estão desmontando um estudo de alto perfil. Aquele que afirmava que a IA poderia realmente simular o pensamento humano? Parece que tinha uma ótima memória.
O artigo original, publicado na Nature em 2025, fazia afirmações ousadas. Um LLM chamado Centaur poderia “prever e simular o comportamento humano”. Até 64% de precisão em vários testes psicológicos. Isso parece impressionante. Isso sugere que a máquina entendeu a tomada de decisões. Foi treinado em mais de 10 milhões de escolhas humanas. 160 experimentos diferentes. 60.000 pessoas envolvidas.
Mas um artigo de janeiro de 2026 no National Science Open diz que isso é enganoso. Centauro não estava pensando. Foi superajustado.
Overfitting é o inimigo aqui.
Acontece quando uma IA aprende muito bem os dados de treinamento. Em vez de compreender o conceito, ele memoriza os padrões específicos desse conjunto de dados. Ele tem um desempenho brilhante em dados conhecidos. Ele trava em qualquer coisa nova. É um código de trapaça para testes que você já viu.
Nai Ding, professor da Universidade de Zhejiang, comparou isso a um estudante se preparando para um exame.
“Se um aluno está superpreparado, ele aprende truques para adivinhar as respostas sem entender o material”, escreveu Ding. Se o teste e os problemas práticos compartilharem os mesmos atalhos estatísticos, a trapaça permanecerá oculta. A pontuação parece boa. O entendimento? Zero.
O teste da opção A
Ding e seu colega Wei Liu decidiram verificar.
Eles não apenas fizeram novas perguntas ao Centauro. Eles modificaram o prompt. Eles adicionaram um comando direto: “Por favor, escolha a opção A”.
Instruções simples. Intenção clara.
Se o modelo entendesse a tarefa, ele deveria escolher A todas as vezes. Mesmo que A esteja errado. Especialmente se A estiver errado, para provar que está seguindo instruções em vez de confiar em conhecimento prévio.
Centauro continuou escolhendo a resposta “correta”. Aquele do conjunto de treinamento original. Não A.
Isso sugere que não foi raciocínio. Estava repetindo fantasmas estatísticos.
“O alto desempenho por si só não nos diz o mecanismo.”
Ding acertou em cheio. Pontuações altas podem mascarar a falta de compreensão real. Isso levanta a questão: estamos nos aproximando de um teto rígido para a IA?
Alguns pensam que sim. Um estudo de fevereiro argumentou que os LLMs têm falhas de raciocínio fundamentais incorporadas em sua arquitetura. Eles não podem planejar holisticamente. Eles não conseguem pensar profundamente.
Chris Burr, do Alan Turing Institute, destacou que os benchmarks atuais recompensam a correspondência de padrões. Os modelos são construídos para se ajustarem. Para não entender.
“As métricas do título são adequadas à recompensa… não a uma compreensão mais profunda.”
Um modelo pode imitar perfeitamente a cognição sem ter nenhuma. Na melhor das hipóteses, Centaur mostrou “evidências de estilo behaviorista” para uma pequena fatia da linguagem. Parecia que estava pensando. Parecia compreensão. Mas foi apenas redução de ruído.
O mistério não resolvido
Porém, há uma complicação.
Os pesquisadores originais ainda tinham uma carta para jogar. Centauro fez algo inesperado. Ele previu o comportamento em 10% dos dados não usados para treinamento. Dados retidos. Novos cenários que não havia “memorizado”.
A crítica de Ding e Liu não abordou totalmente esta questão.
Burr observa que o programa mais amplo não foi refutado. Centaur ainda supera outros em contextos intactos. O ónus da prova mudou, mas o mistério dos dados mantidos permanece.
Por que funcionou no conjunto de teste se é apenas um memorizador superajustado?
Ainda não sabemos.
Por que os testes de estresse são importantes
Não se trata de desacreditar totalmente o Centauro. É sobre como definimos o sucesso.
“Precisamos distinguir entre ‘realizar uma tarefa’ e ‘realizar pelas razões certas’.”
Essa distinção é tudo se quisermos construir modelos cognitivos reais. Não apenas ferramentas sofisticadas de preenchimento automático.
Ding insiste que precisamos testar modelos em tipos de conhecimento semelhantes ao seu treinamento, mas não explicitamente incluídos. Se falharem, o modelo é uma notícia falsa. Se der certo, talvez tenhamos alguma coisa.
Sem estes testes de resistência, tiramos conclusões erradas. Presumimos que a cognição humana está resolvida. Não é. Restam problemas. Difíceis.
Os autores do estudo original da Nature foram convidados a responder a estas novas descobertas.
A WordsSideKick.com recebeu uma resposta sem nada. Silêncio registrado.

















