A
A
  • Angol
  • Magyar
  • 15 perc

A Google új Gemma 3N AI modelljének bemutatása és telepítése

A videóban a Google legújabb multimodális Gemma 3N AI modelljének funkcióit, telepítését és teljesítményét ismerhetjük meg fejlesztői szemszögből.

A videóban egy új, fejlett AI modellt, a Google Gemma 3N-t ismerhetjük meg, amely multimodális bemeneteket – képet, hangot, videót és szöveget – képes kezelni. Ez a modell a Google Gemma család legfrissebb tagjaként kifejezetten nagy teljesítményű helyi (on-device) alkalmazásra készült, még okostelefonokon és edge-eszközökön is.

Érdekességet jelent, hogy a fejlesztők a matrioska transformer architektúrát és újfajta memóriaoptimalizáló technikákat alkalmaztak, ezzel lehetővé téve a hatékony és rugalmas inferenciát nagyobb kontextusablakkal és alacsonyabb memóriaigénnyel. A tesztek során különböző multimodális funkciókat vizsgálnak: képelemzést, forgalmi helyzetfelismerést, OCR (karakterfelismerés) több nyelven, hangfelismerést és fordítást, illetve videóleírást.

A kísérletezés során szóba kerülnek a rendszer erősségei és gyengeségei, például az OCR pontossága vagy a memóriahasználat GPU-n, valamint megvitatják a benchmarkteszteket és az újonnan bevezetett technológiákat. Többek között rövid kitérő is történik fejlesztői eszközökre, trükkökre és alternatív rendszerekre, amelyekkel ezek a modellek futtathatók vagy integrálhatók.

A fejlesztők hangsúlyozzák a modell különleges mobilkompatibilitását, illetve tesztelik, hogy mennyire alkalmas valós idejű alkalmazásokra, például videó- és hangfeldolgozásra vagy programozási feladatok megoldására. Összességében számos olyan kérdés kerül felvetésre, amely a mesterséges intelligencia jövőbeni lehetséges felhasználási irányait, valamint a modellek hatékonyságát és megbízhatóságát érinti.