A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 12 perc

Google Gemma 4 12B: A multimodális AI új szintje helyben futtatva

Mire képes egy modern multimodális mesterséges intelligencia, ha bárki helyben futtathatja? A videóban a Google Gemma 4 12B modell szöveg-, kép- és hangfeldolgozását tesztelik.

Sydney-ben, a hajnali órákban egy új, 12 milliárd paraméteres Gemma 4 modellt tesztel a videó készítője. Ezt a modellt úgy emeli ki, mint azt a méretet, ahol a teljesítmény és a helyi futtathatóság ideálisan találkozik. Különös figyelmet fordít arra, hogy a modell képes szöveget, képet és hangot egységesen értelmezni és feldolgozni, rendkívül széles, 256 000 tokenes kontextusablak mellett.

A téma között szerepel a Gemma 4 modellek családjának gyors áttekintése, beleértve a mobilra és szerverre szánt változatokat, valamint annak elmagyarázása, miért tekinti a 12B verziót a legalkalmasabbnak széleskörű felhasználásra. Felvázolja az encoder-mentes, egységes architektúra alapelveit, amely lehetővé teszi, hogy képek és hanganyagok közvetlenül, további speciális modulok nélkül kerüljenek feldolgozásra a szöveges tokenekkel együtt. Ez jelentős fejlesztést jelent egyszerűség, késleltetés és memóriakezelés szempontjából.

A teszt során megfigyelhetjük, hogyan birkózik meg a modell utasításokat követő elvont kérdések megválaszolásával, kódgenerálással, fordítással több mint 140 nyelvre, valamint karakterfelismeréssel és komplex pénzügyi dokumentumok feldolgozásával. Külön érdekesség, hogy a videóban élőben ellenőrizhetők a különböző nyelvekre adott fordítások, OCR tesztek, illetve egy úgynevezett orvosi hangfájl szakszerű átirata is előkerül.

Felmerül a kérdés: miként alakítja át ez az egyesített architektúra azt, amit a multimodális modellekről eddig gondoltunk? Milyen kompromisszumokat köt a modell mérete és sokoldalúsága között? S vajon mennyire bővíthető, finomhangolható ez a megközelítés a jövőben, amikor a nagy nyelvi modelleket már személyi szinten, helyben futtatjuk?