Para peneliti sedang melakukan studi penting. Yang mengklaim AI sebenarnya bisa mensimulasikan pemikiran manusia? Sepertinya itu hanya memiliki kenangan indah.
Makalah asli, yang diterbitkan di Nature pada tahun 2025, membuat klaim yang berani. Sebuah LLM bernama Centaur dapat “memprediksi dan mensimulasikan perilaku manusia”. Akurasi hingga 64% di berbagai tes psikologi. Kedengarannya mengesankan. Ini menunjukkan bahwa mesin memahami pengambilan keputusan. Itu dilatih pada lebih dari 10 juta pilihan manusia. 160 percobaan berbeda. 60,00 orang terlibat.
Namun makalah pada bulan Januari 2026 di National Science Open mengatakan hal ini menyesatkan. Centaur tidak berpikir. Itu terlalu pas.
Overfitting adalah musuh di sini.
Hal ini terjadi ketika AI mempelajari data pelatihan dengan sangat baik. Alih-alih memahami konsepnya, ia malah menghafal pola spesifik dalam kumpulan data tersebut. Ia bekerja dengan sangat baik pada data yang diketahui. Itu crash pada sesuatu yang baru. Ini adalah kode curang untuk tes yang pernah Anda lihat.
Nai Ding, seorang profesor di Universitas Zhejiang, membandingkannya dengan seorang siswa yang belajar keras untuk ujian.
“Jika seorang siswa terlalu siap, mereka mempelajari trik menebak jawaban tanpa memahami materinya,” tulis Ding. Jika tes dan soal latihan memiliki pintasan statistik yang sama, kecurangan akan tetap tersembunyi. Skornya terlihat bagus. Pemahamannya? Nol.
Tes Opsi A
Ding dan rekannya Wei Liu memutuskan untuk memeriksanya.
Mereka tidak hanya menanyakan pertanyaan baru kepada Centaur. Mereka memodifikasi promptnya. Mereka menambahkan perintah langsung: “Silakan pilih opsi A.”
Instruksi sederhana. Niat yang jelas.
Jika model memahami tugasnya, model harus memilih A setiap saat. Walaupun A salah. Apalagi jika A salah, untuk membuktikannya mengikuti arahan daripada mengandalkan pengetahuan sebelumnya.
Centaur terus memilih jawaban yang “benar”. Yang dari set pelatihan asli. Bukan A.
Hal ini menunjukkan bahwa hal tersebut tidak masuk akal. Itu adalah hantu statistik yang berulang.
“Performa tinggi saja tidak memberi tahu kita mekanismenya.”
Ding tepat sasaran. Nilai yang tinggi dapat menutupi kurangnya pemahaman yang sebenarnya. Hal ini menimbulkan pertanyaan: Apakah kita sudah mendekati batas maksimum AI?
Beberapa orang berpikir demikian. Sebuah studi di bulan Februari berpendapat bahwa LLM memiliki kegagalan penalaran mendasar yang tertanam dalam arsitekturnya. Mereka tidak dapat membuat rencana secara holistik. Mereka tidak bisa berpikir mendalam.
Chris Burr dari Alan Turing Institute menunjukkan bahwa tolok ukur saat ini memberi penghargaan pada pencocokan pola. Model dibuat agar pas. Tidak mengerti.
“Penghargaan metrik judul sesuai… bukan pemahaman yang lebih dalam.”
Seorang model dapat meniru kognisi dengan sempurna tanpa harus memilikinya. Yang terbaik, Centaur menunjukkan “bukti gaya behavioris” untuk sepotong kecil bahasa. Sepertinya sedang berpikir. Rasanya seperti pengertian. Tapi itu hanya pengurangan kebisingan.
Misteri yang Belum Tertangani
Namun ada komplikasinya.
Peneliti asli hanya punya satu kartu tersisa untuk dimainkan. Centaur melakukan sesuatu yang tidak terduga. Ini memperkirakan perilaku pada 10% data yang tidak digunakan untuk pelatihan. Data yang disimpan. Skenario baru yang belum “dihafalnya”.
Kritik Ding dan Liu tidak sepenuhnya mengatasi hal ini.
Burr mencatat bahwa program yang lebih luas tidak dapat disangkal. Centaur masih mengungguli yang lain dalam konteks utuh. Beban pembuktian telah bergeser, namun misteri data yang ada masih tetap ada.
Mengapa ini berhasil pada set tes jika itu hanya penghafal yang berlebihan?
Kami belum tahu.
Mengapa Tes Stres Penting
Ini bukan tentang mendiskreditkan Centaur sepenuhnya. Ini tentang bagaimana kita mendefinisikan kesuksesan.
“Kita perlu membedakan antara ‘melakukan tugas’ dan ‘melakukan untuk alasan yang benar.'”
Perbedaan itu adalah segalanya jika kita ingin membangun model kognitif yang sebenarnya. Bukan hanya alat pelengkapan otomatis yang mewah.
Ding menegaskan kita perlu menguji model pada tipe pengetahuan yang mirip dengan pelatihan mereka tetapi tidak disertakan secara eksplisit. Jika gagal, modelnya adalah berita palsu. Jika berhasil, mungkin kita punya sesuatu.
Tanpa stress test ini, kita menarik kesimpulan yang salah. Kami berasumsi kognisi manusia telah terpecahkan. Bukan itu. Masih ada masalah. Yang sulit.
Para penulis studi asli Nature diminta untuk menanggapi temuan baru ini.
Live Science mendapat tanggapan tanpa hasil apa pun. Keheningan tercatat.

















