A Sakana AI legújabb fejlesztése forradalmi lendületet hozhat a megerősítéses tanulás (RL) területén. Bemutatják, miként változtatható meg az a hagyományos hozzáállás, amelyben a tanuló modellt jutalmazzák a helyes válaszokért: most előtérbe kerül, hogy a tanító modellt értékeljék aszerint, mennyire hatékonyak a magyarázatai a diák modell számára.
A videó példákat hoz fel arra, hogyan alkalmazzák ezt a gondolkodásmódot. Szó esik arról, hogy kisebb neurális hálózatok is képesek lehetnek versenyképesen tanítani nagyobb modelleket, jelentősen csökkentve ezáltal a szükséges költségeket és a számítási erőforrás igényt. Bemutatják a benchmarkokat is, amelyek alapján ezeket az új tanító modelleket értékelik.
Érdekes párhuzamot vonnak az emberi oktatók és a mesterséges tanárok között: kiemelik, hogy egy kiváló tanár nem feltétlenül tudná önállóan megoldani a legnehezebb feladatokat, mégis kitűnően képes rávezetni másokat a helyes megoldásra. Ez a gondolat új irányokat mutat a mesterséges intelligencia fejlesztésében.
Felvetődik a kérdés: milyen hatása lehet annak, ha olcsóbb, kisebb modellek segítségével bárki képes lenne fejlett AI rendszerekhez jutni? Továbbá az önreflektív és önfejlesztő AI-modellek lehetősége is felmerül, amelyek képesek magukat tanítani – akár új AI-kutatási folyamatokat is gyorsíthatnak.