Egy nemrég publikált Apple-tanulmány futótűzként terjedt el a mesterséges intelligencia világában, miután merész állításokat tett a legújabb „gondolkodó” nyelvi modellek képességeiről. A tanulmány felveti, hogy ezek a nagyméretű modellek közel sem rendelkeznek valódi gondolkodási képességgel, inkább csak fejlett mintázatfelismerő rendszerek, amelyek gyakran a betanítás során használt tesztadatokon „csalnak” a pontosság érdekében.
A „data contamination” problémája is jelentős hangsúlyt kap, vagyis hogy az értékelésre használt etalonfeladatok gyakran részei voltak a modellek tanításának, torzítva ezzel a benchmarkokat és azok megbízhatóságát. Az Apple javaslata szerint manipulálható bonyolultságú logikai feladványokkal – mint például a hanoi tornyai, dámajáték, folyóátkelős és blokkváros feladatokkal – érdemesebb mérni a modellek általánosítható gondolkodási képességét.
A tanulmány részletesen kitér arra is, hogy a különböző modellek – például Claude 3.7 és Deepseek R1 – miként teljesítenek eltérő nehézségű logikai feladványokon. Vizsgálják azt is, hogy a „gondolkodó” modellek valóban jobbak-e bonyolultabb feladatokban, és hol vannak a határaik. Különös figyelmet kap, hogy a modellek mennyire hajlamosak túl sok felesleges gondolkodási lépést tenni (overthinking), illetve hogyan kezelik az explicit megoldási algoritmus megadását.
Izgalmas kérdéseket vet fel a tanulmány: vajon tényleg gondolkodnak-e ezek a modellek, vagy csupán bonyolult mintázatokat követnek? Elvonatkoztatható-e egyáltalán az emberi gondolkodástól a digitális intelligencia? A tanulmány egy OpenAI társalapító lendületes véleményével is színesíti a képet az emberi és mesterséges intelligencia párhuzamáról, miközben kitér arra is, hogy a modellek programírási képességei új utat nyithatnak a feladványok megoldásában.