Ebben az elemzésben a Google legújabb mesterséges intelligencia modelljének, a Gemini 3.1 Pro-nak a fejlődését és az általa elért eredményeket vizsgálják meg. Jelentős előrelépéseket tapasztalhatunk a korábbi modellekhez képest, különösen az absztrakt logikai gondolkodást mérő Arc AGI 2 teszten, ahol 31-ről 77 százalékos teljesítményre ugrott mindössze három hónap alatt.
Az új, úgynevezett „agentikus” korszakban a hangsúly a valódi, gyakorlati feladatok automatizált elvégzésén, valamint az önálló cselekvőképességen van. A videó több új benchmarkot (mérési rendszert) mutat be, mint például a Browse Comp vagy az Apex Agents, amelyek az AI modellek internetes kutatói képességeit és irodai produktivitását tesztelik. Az ilyen feladatok gyakran kihívást jelentenek még az emberek számára is.
A Terminal Bench 2.0 segítségével azt is tesztelik, mennyire hatékonyan tudnak ezek a modellek parancssoros környezetben dolgozni. Ez különös jelentőséggel bír, hiszen a nyelvi modellek gyorsan fejlődnek abban, hogy technikai, gépi feladatokat is el tudjanak látni. Egy érdekes kérdés merül fel: vajon ezek a modellek mikor válnak teljesen önálló, produktív munkaerővé?
A Tao 2 benchmark pedig a párbeszéd-alapú együttműködési és ügyfélszolgálati helyzeteket méri – ezek a tesztek azt vizsgálják, mennyire képesek az AI rendszerek egy partnerrel folyamatosan, valós idejű helyzetekben együttműködni. A pontszámokból kiderül, hogy még mindig van hova fejlődni, de az előrelépés üteme lenyűgöző.
A gyors fejlődés, az új mérési módszerek és a kihívást jelentő, valósághű tesztszituációk mind érdekes kérdéseket vetnek fel: hogyan változtatja meg mindez a munka világát, és hol a határa annak, amit ezek a modellek automatizálni tudnak?










