A
A
  • Angol
  • Magyar
  • 13 perc

Google Diffusion Gemma: Új kísérleti modell a mesterséges intelligencia világában

A Diffusion Gemma egy új, kísérleti nyílt modell a Google-tól, amely párhuzamos szöveggenerálással és multimodális tudással hívja fel magára a figyelmet a mesterséges intelligencia világában.

Újabb áttörést jelent a mesterséges intelligencia területén a Google legújabb nyílt modellje, a Diffusion Gemma, amely egy kísérleti „mixture of expert” architektúrát követ. Az ismertetés során részletesen bemutatják, hogyan működik a diffúziós alapú szöveggenerálás, amely merőben eltér a hagyományos autoregresszív módszerektől: nem szekvenciálisan halad tokenről tokenre, hanem párhuzamosan, teljes szövegegységeket képes generálni.

A videóban kitérnek arra a technikai különlegességre, hogy a modell akár 1100 token másodpercenkénti generálására is képes, amivel kiemelkedik a többi, helyben futtatható LLM közül. Gyorsteszteléseken keresztül mutatják be a készítők, hogyan működik a telepítés, milyen hardverigényeket támaszt, illetve miért izgalmas a diffúziós architektúra a teljes blokkok egyidejű feldolgozásánál.

Számos példafeladatot futtatnak: SVG animáció generálása, böngészőben futó, többfüles felhasználói felület kódoltatása, képfeldolgozási feladat (például autó és sorompó felismerése), kézírásos szövegfelismerés, valamint videóanalízis is szemlélteti a modell multimodális képességeit. Elhangzik, hogy bár a sebesség lenyűgöző, a benchmark tesztek eredményeit tekintve jelenleg még inkább kísérleti stádiumban van, végfelhasználói vagy produkciós szintű alkalmazás helyett innovatív játszótérként ajánlják a készítők a modellt.

Felmerülnek olyan kérdések, mint: Miben különbözik lényegesen ez a modell a többi nyílt forráskódú LLM-től? Hogyan teljesít komplex feladatokon, például programgenerálásban vagy képfelismerésben? Valóban stabil megoldás lehet helyi futtatásban, és szakmailag milyen kompromisszumokkal kell szembenézni a gyorsaság javára? Érdemes-e már most alkalmazni fejlett AI feladatokra, vagy érdemes kivárni a későbbi változatokat?