Mi teszi lehetővé, hogy egy szinte hihetetlenül kicsi, mindössze 7 millió paraméteres mesterséges intelligencia modell felülmúlja a legnagyobb és legfejlettebb modelleket a bonyolult logikai és érvelési teszteken? Az új, meglepő megközelítés, amely szakít a megszokott, óriási modellekkel, és helyette egy „karcsú” architektúrát használ, alaposan felborzolja a szakma állóvizét.
Az elemzés középpontjában a „tiny recursive model” (TRM) áll, amelyet egyetlen szerző fejlesztett ki a Samsungnál. Különös figyelem irányul arra, hogyan képes ez a modell a logikai gondolkodási folyamatokat szimuláló, úgynevezett „recursive reasoning” módszerrel javítani teljesítményét – méghozzá úgy, hogy közben a méretet is sikerül töredékére csökkenteni.
A videó érdekes kérdéseket vet fel: Miért vallanak kudarcot a nagy LLM-ek a legnehezebb problémákon? Tényleg a „méret a lényeg”, vagy éppen ellenkezőleg, az egyszerűség és az okos megoldások vezetnek áttöréshez? Vajon a biológiai ihletettség – például az emberi agyhoz való hasonlóság – mennyire hasznos és érvényes indoklás egy új MI-architektúra esetében?
Több klasszikus és új technikát (mint a chain of thought, pass at K, deep supervision és hierarchikus rekurzió) is összehasonlítanak. Kiderül, hogy néha a lényeg az, mennyire tud okosan ismételni és önkritikusan javítani a modell – nem feltétlenül az, hogy mennyi memóriával vagy mennyire bonyolult szerkezettel dolgozik.