A mesterségesintelligencia-modellek világa elképesztő gyorsasággal fejlődik, szinte naponta jelennek meg új, izgalmas megoldások. Ezúttal a Google mutatta be legújabb fejlesztését, a Diffusion Gemma-t, amely a diffúziós modellek ötleteit ötvözi a nagyméretű nyelvi modellekkel.
Az innováció egyik kulcsa, hogy a jelenlegi LLM-ek auto-regresszív módon, szekvenciálisan generálják szövegeiket, ami alulhasznosítja a modern GPU-k feldolgozóképességét, és viszonylag magas válaszadási késleltetéshez vezet. A Diffusion Gemma ezzel szemben a szöveges diffúzió elvét alkalmazza: 256 tokenes „vászonra” random szavakat helyez el, és iteratív módon egyre értelmesebb szöveggé alakítja azokat. Ez lehetőséget ad nagyobb párhuzamosításra és gyorsabb válaszadásra.
Felmerülnek azonban új kérdések: vajon a diffúziós megközelítés hogyan befolyásolja a modell gondolatmenetét és problémamegoldó képességét? Milyen kompromisszumokkal jár a rövid input és output hossza? Hogyan változik a minta felismerő és logikai készség egy ilyen új architektúra esetén?
A bemutatott demók során kitérnek több logikai feladvány és történelmi kérdés megválaszolására is, és látható, hogy a diffúziós modell eltérően viselkedik a hagyományos auto-regresszív nyelvi modellektől. Az is szóba kerül, hogy milyen hardveres erőforrásokra van szükség az ilyen modellek futtatásához, és milyen jövőbeli lehetőségek rejlenek a Google által elindított kutatási projektben.










