Az „Absolute Zero” nevű új modell paradigmáját mutatják be, amely képes adat nélkül tanulni és fejleszteni magát. A kínai kutatók azt demonstrálják, hogyan tud egy nagy nyelvi modell saját problémákat generálni, megkísérelni azok megoldását, majd ezekből a próbálkozásokból fejlődni – mindezt emberi beavatkozás nélkül.
A témakör középpontjában az önálló tanulási folyamat áll: míg a korábbi modelleknél emberek alkotta vagy ellenőrzött adatkészletekre volt szükség, az Absolute Zero Reasoner önállóan alkot feladatokat, és ezek nehézségét is képes optimalizálni, hogy mindig a fejlődése határán tanuljon.
A videó kitér a megbízható visszacsatolás (verifiable rewards) jelentőségére, főleg matematikai és kódolási feladatok esetén, ahol egyértelműen ellenőrizhető az eredmény helyessége. Felmerül a kérdés, hogy képes-e az AI teljesen kiváltani az emberi felügyeletet, amikor már az emberek által alkotott feladatok nem elegendőek a fejlődéshez.
Érdekes példaként említik az AlphaGO és AlphaZero rendszereket, amelyek önjátékkal sajátították el a világ legjobbjainak szintjét, és felvetődik a kérdés: hogyan alkalmazható hasonló önfejlesztő tanulás matematikában és kódolásban is?
A bemutatott modell teljesítménye, generalizációs képességei, váratlan viselkedési mintái, valamint az autonóm tanulás előnyei mellett új etikai és biztonsági kérdéseket is felvet. A témához kapcsolódóan szóba kerülnek olyan kérdések is, mint a modellezés skálázhatósága, és hogy mekkora lehet az előnye a nagyobb alapmodelleknek ebben az új oktatási rendszerben.