Az utóbbi időszak egyik legnagyobb híre, hogy a Google bemutatta a Gemini 3 nevű legújabb nagy nyelvi modelljét. Első pillantásra a Gemini 3 benchmark eredményei lenyűgözőek, de a videóban felmerül a kérdés, mennyire tükrözik ezek a teszteredmények a való világban tapasztalható AI teljesítményt.
Különös hangsúlyt kap az, hogyan viszonyulnak ezek az adatok a fejlesztők mindennapi munkájához, főleg az AI-alapú kódolási asszisztensek területén. Az új Anti-gravity AI fejlesztői környezet szintén fókuszba kerül, amely integrált Gemini 3 támogatást kínál, és bemutatásra kerül, hogyan képes az AI önállóan kezelni weboldalakat, vizsgálni és javaslatokat tenni a frontend dizájn javítására.
A szerző saját tapasztalatain keresztül mutatja be a különböző nyelvi modellek – például Claude Sonnet régi és új változatai – közötti különbségeket, felvetve, hogy a fejlesztői eszközök és munkafolyamatok talán nagyobb szerepet játszanak a felhasználói élményben, mint maga az alatta futó LLM.
A videó egyúttal rávilágít az iparág dilemmáira: mi alapján lehet igazán felmérni egy új modell hasznosságát? Bemutatásra kerül a Kleinbench nevű új mérési módszer, amely nyilvánosan elérhető valós kódolási feladatokon keresztül kívánja mérni a különféle AI-asszisztensek tényleges teljesítményét.
Felmerül az is, hogy mennyire számítanak a szintetikus benchmarkok, és mennyire lenne szükség valódi fejlesztési környezetekre az AI modellek kiértékelésénél. A nézőt arra ösztönzi a szerző, hogy gondolkodjon el: vajon a látványos fejlődést mutató statisztikák vagy inkább a saját tapasztalatok és a folyamatosan fejlődő eszköztár számítanak jobban a mindennapos fejlesztői életben.










