Ebben a videóban egy, az Apple által közzétett friss tanulmányt elemzünk, amely azt vizsgálja, hogy a nagy nyelvi modellek (LLM-ek) mennyire képesek matematikai gondolkodási feladatokat valóban logikai úton megoldani, vagy csak mintázatokat tanulnak meg felismerni és visszaadni.
Felmerül az a kérdés is, hogy a legismertebb benchmarkok, például a GSM 8K, vajon nem részei-e gyakran maguknak a modelltréning-adathalmazoknak, így azok tesztelésére alkalmatlanok vagy torzított eredményeket adnak. Ennek bizonyítására új, szintetikus adatkészletet – a GSM symbolic-ot – mutatnak be, amellyel a variációkat és a modellek robusztusságát is vizsgálják.
A videó érdekes kísérletekre hívja fel a figyelmet: például, hogy a modellek teljesítménye hogyan változik, ha csak a szereplők neveit, vagy csak a feladatban előforduló számokat variálják. Megfigyelhető, hogy a számok megváltoztatása lényegesen nagyobb pontosságromlást eredményez. Kiemelik azt is, hogy az LLM-ek mennyire érzékenyek a kérdések összetettségére és a felesleges, irreleváns információk jelenlétére.
Az összefoglaló végig gondolatkísérletekre invitál, például, hogy a benchmarkok alkalmasak-e valódi gondolkodási képesség mérésére, illetve hogy jogos-e egyáltalán az LLM-eket kizárólag matematikai-logikai megfejtőknek várni. A kérdések végig nyitva maradnak: vajon a mintázatfelismerés elég-e, mi jelent valódi érvelést, és mennyire hasonlóak az LLM-ek hibái az emberi hibákhoz?