Sydney-ben, a hajnali órákban egy új, 12 milliárd paraméteres Gemma 4 modellt tesztel a videó készítője. Ezt a modellt úgy emeli ki, mint azt a méretet, ahol a teljesítmény és a helyi futtathatóság ideálisan találkozik. Különös figyelmet fordít arra, hogy a modell képes szöveget, képet és hangot egységesen értelmezni és feldolgozni, rendkívül széles, 256 000 tokenes kontextusablak mellett.
A téma között szerepel a Gemma 4 modellek családjának gyors áttekintése, beleértve a mobilra és szerverre szánt változatokat, valamint annak elmagyarázása, miért tekinti a 12B verziót a legalkalmasabbnak széleskörű felhasználásra. Felvázolja az encoder-mentes, egységes architektúra alapelveit, amely lehetővé teszi, hogy képek és hanganyagok közvetlenül, további speciális modulok nélkül kerüljenek feldolgozásra a szöveges tokenekkel együtt. Ez jelentős fejlesztést jelent egyszerűség, késleltetés és memóriakezelés szempontjából.
A teszt során megfigyelhetjük, hogyan birkózik meg a modell utasításokat követő elvont kérdések megválaszolásával, kódgenerálással, fordítással több mint 140 nyelvre, valamint karakterfelismeréssel és komplex pénzügyi dokumentumok feldolgozásával. Külön érdekesség, hogy a videóban élőben ellenőrizhetők a különböző nyelvekre adott fordítások, OCR tesztek, illetve egy úgynevezett orvosi hangfájl szakszerű átirata is előkerül.
Felmerül a kérdés: miként alakítja át ez az egyesített architektúra azt, amit a multimodális modellekről eddig gondoltunk? Milyen kompromisszumokat köt a modell mérete és sokoldalúsága között? S vajon mennyire bővíthető, finomhangolható ez a megközelítés a jövőben, amikor a nagy nyelvi modelleket már személyi szinten, helyben futtatjuk?











