A
A
  • Angol
  • Magyar
  • 19 perc

Google Gemma 4: az új nyílt forráskódú AI modell bemutatója helyi gépeken

A Google új, nyílt forráskódú Gemma 4 modelljét tesztelik helyi gépen: benchmarkok, valós példák, multimodalitás, többnyelvűség és technológiai kulisszatitkok egy részletes bemutatóban.

Sydneyben, nagypénteken egy technológiai újdonság került a fókuszba: a Google bemutatta a Gemma 4 nyílt forráskódú mesterséges intelligencia modellcsaládját, amely teljesítményben és rugalmasságban is felülmúlja piaci vetélytársait. Kiemelt figyelmet kap a 31 milliárd paraméteres, lokálisan is telepíthető változat, amelyet lépésről lépésre mutatnak be egy Nvidia H100 GPU-n.

Az architektúra részletein keresztül betekintést nyerhetünk abba, hogyan különbözik a Gemma család többi tagjától: például a kisebb méretű modellek rétegszintű embedding-technikát alkalmaznak, míg a 31 milliárdos modell egy klasszikus, dense felépítésű, instrukcióra hangolt verzió. Multimodális képességei lehetővé teszik a szövegek és képek egyidejű feldolgozását, a benchmarkok alapján pedig kiemelkedő eredményeket ér el különböző éles teszteken.

Praktikus példák révén megismerhetjük, hogyan generál komplex HTML-alapú hangyaboly-szimulációt, miközben olyan funkciókat tesztelnek, mint a hosszú kontextus kezelése, az adatok strukturált konvertálása (például egy űrlapból JSON előállítása) és a kézírásos fizikai egyenletek felismerése. A demonstrációban a modell több mint 50 nyelven, köztük egzotikus dialektusokban is kipróbálásra kerül, sőt, a fiktív nyelvek feldolgozása is terítékre kerül.

Külön érdekesség, hogy a Gemma 4 képes részletesen elemezni egy videó képkockáit is: egy rövid AI-generált klip leírása során nemcsak a látható mozgásokat, hanem az érzelmi hangulatot, a környezetet és a szereplők testbeszédét is képes értelmezni. Mindeközben fontos kérdések vetődnek fel a skálázhatóság, a VRAM-igény, valamint a gyakorlati alkalmazások kapcsán, például nagyobb adatmennyiség vagy többnyelvű felhasználás esetén.