A videóban egy új, fejlett AI modellt, a Google Gemma 3N-t ismerhetjük meg, amely multimodális bemeneteket – képet, hangot, videót és szöveget – képes kezelni. Ez a modell a Google Gemma család legfrissebb tagjaként kifejezetten nagy teljesítményű helyi (on-device) alkalmazásra készült, még okostelefonokon és edge-eszközökön is.
Érdekességet jelent, hogy a fejlesztők a matrioska transformer architektúrát és újfajta memóriaoptimalizáló technikákat alkalmaztak, ezzel lehetővé téve a hatékony és rugalmas inferenciát nagyobb kontextusablakkal és alacsonyabb memóriaigénnyel. A tesztek során különböző multimodális funkciókat vizsgálnak: képelemzést, forgalmi helyzetfelismerést, OCR (karakterfelismerés) több nyelven, hangfelismerést és fordítást, illetve videóleírást.
A kísérletezés során szóba kerülnek a rendszer erősségei és gyengeségei, például az OCR pontossága vagy a memóriahasználat GPU-n, valamint megvitatják a benchmarkteszteket és az újonnan bevezetett technológiákat. Többek között rövid kitérő is történik fejlesztői eszközökre, trükkökre és alternatív rendszerekre, amelyekkel ezek a modellek futtathatók vagy integrálhatók.
A fejlesztők hangsúlyozzák a modell különleges mobilkompatibilitását, illetve tesztelik, hogy mennyire alkalmas valós idejű alkalmazásokra, például videó- és hangfeldolgozásra vagy programozási feladatok megoldására. Összességében számos olyan kérdés kerül felvetésre, amely a mesterséges intelligencia jövőbeni lehetséges felhasználási irányait, valamint a modellek hatékonyságát és megbízhatóságát érinti.