Vědci rozebírají vysoce kvalitní vědeckou studii. Ten samý, který tvrdil, že umělá inteligence může skutečně simulovat lidské myšlení? Zdálo se, že má skvělou paměť.
Původní práce publikovaná v časopise Nature v roce 2025 obsahovala odvážná tvrzení. Jazykový model zvaný Kentaur mohl „předpovídat a simulovat lidské chování“. Přesnost dosáhla podle výsledků různých psychologických testů 64 %. Zní to působivě. To vyvolává dojem, že stroj rozumí procesu rozhodování. Bylo trénováno na více než 10 milionech lidských možností ve 160 různých experimentech zahrnujících 60 000 lidí.
Článek v National Science Open z ledna 2026 však tato tvrzení označuje za zavádějící. Centaur nepřemýšlí. Trpí přetrénováním.
Hlavním nepřítelem je zde přetrénování.
To se stane, když se AI naučí tréninková data příliš doslova. Namísto zvládnutí konceptu se učí konkrétní vzory v dané sadě dat. Skvěle si poradí se známými daty, ale se všemi novými daty se porouchá. Toto je druh cheatu pro testy, které jste již absolvovali.
Nai Ding, profesor na Zhejiang University, to přirovnal ke studentovi, který se cpal na zkoušku.
“Pokud je student příliš připravený, naučí se triky, jak uhodnout odpovědi, aniž by porozuměl látce,” napsal Dean. Pokud testovací a procvičovací úkoly používají stejné statistické mezery, podvádění zůstane neodhaleno. Známky vypadají dobře. Porozumění? Nula.
Test „Vyberte možnost A“
Ding a jeho kolega Wei Liu se rozhodli to zkontrolovat.
Nekladli Centaurům jen nové otázky. Změnili výzvu přidáním přímého příkazu: “Vyberte možnost A.”
Jednoduchý návod. Jasný záměr.
Pokud model skutečně pochopil problém, měl by pokaždé zvolit A. I když A je špatná odpověď. Zvláště pokud A nesprávně prokazuje, že postupuje podle pokynů, místo aby se spoléhala na předchozí znalosti.
Kentaur pokračoval ve výběru „správné“ odpovědi. Ten samý, který byl v původní tréninkové sadě. Ne A.
To ukazuje, že neuvažoval. Reprodukoval statistické „duchy“.
“Vysoké ukazatele samy o sobě neodhalují mechanismus práce.”
Dean uhodil hřebíček na hlavičku. Vysoké skóre může maskovat nedostatek skutečného porozumění. To vyvolává otázku: blížíme se tvrdému stropu pro AI?
Někteří lidé si to myslí. Studie z února tvrdila, že moderní jazykové modely mají ve své architektuře zabudovány základní odvozovací chyby. Nejsou schopni holistického plánování. Nevědí, jak hluboce přemýšlet.
Chris Burr z Alan Turing Institute poukázal na to, že současné benchmarky podporují rozpoznávání vzorů. Modely jsou vytvořeny pro fit, ne pro pochopení.
„Metriky nadpisu odměňují dodržování předpisů… spíše než hluboké porozumění.“
Model může dokonale simulovat kognitivní procesy, aniž by je vůbec vlastnil. V nejlepším případě Kentaurus předvedl „důkaz chování“ práce s malým fragmentem jazyka. Vypadalo to jako přemýšlení. Připadalo mi to jako pochopení. Šlo však pouze o snížení hladiny hluku.
Nevyřešené tajemství
Je tu však jedna komplikace.
Původním průzkumníkům zbyl jeden trumf. Centaurové udělali něco neočekávaného. Předpověděl chování u 10 % dat, která nebyla použita pro školení. Byla to skrytá data. Nové skripty, které si nedokázal „zapamatovat“.
Dingova a Liuova kritika se plně nezabývala tímto aspektem.
Burr poznamenává, že širší koncept nebyl vyvrácen. V konstantním kontextu Centaur stále překonává ostatní modely. Důkazní břemeno se posunulo, ale záhada práce se skrytými daty zůstává nevyřešena.
Proč to fungovalo na testovací sadě, když to byl jen přeškolený memorizátor?
To ještě nevíme.
Proč jsou zátěžové testy důležité
Nejde o úplnou diskreditaci Centaurů. Otázkou je, jak definujeme úspěch.
„Musíme rozlišovat mezi „dělat věci“ a „dělat věci ze správných důvodů“.
Tento rozdíl je kritický, pokud chceme vytvářet skutečné kognitivní modely spíše než jen sofistikované nástroje automatického doplňování.
Dean argumentuje potřebou testovat modely na typech znalostí podobných těm, které se používají při školení, ale nejsou explicitně zahrnuty do sady školení. Pokud model selže, je to padělek. Pokud to bude fungovat, možná máme něco, co stojí za to.
Bez takových zátěžových testů vyvozujeme špatné závěry. Předpokládáme, že problém lidského poznání je vyřešen. Ale to není pravda. Přetrvávají problémy. A jsou komplexní.
Autoři původní studie v Nature byli požádáni, aby se k těmto novým zjištěním vyjádřili.
Live Science neobdržela odpověď. Ticho ve vzduchu.