A
A
  • Angol
  • Magyar
  • 13 perc

Új szöveggenerátor a Google-től: a Diffusion Gemma bemutatkozása

A Diffusion Gemma új irányt mutat az AI-vezérelt szövegalkotásban, ötvözve a diffúziós modelleket a nagyméretű nyelvi modellek képességeivel, és izgalmas kérdéseket vet fel a hatékonyság és a gondolatmenet terén.

A mesterségesintelligencia-modellek világa elképesztő gyorsasággal fejlődik, szinte naponta jelennek meg új, izgalmas megoldások. Ezúttal a Google mutatta be legújabb fejlesztését, a Diffusion Gemma-t, amely a diffúziós modellek ötleteit ötvözi a nagyméretű nyelvi modellekkel.

Az innováció egyik kulcsa, hogy a jelenlegi LLM-ek auto-regresszív módon, szekvenciálisan generálják szövegeiket, ami alulhasznosítja a modern GPU-k feldolgozóképességét, és viszonylag magas válaszadási késleltetéshez vezet. A Diffusion Gemma ezzel szemben a szöveges diffúzió elvét alkalmazza: 256 tokenes „vászonra” random szavakat helyez el, és iteratív módon egyre értelmesebb szöveggé alakítja azokat. Ez lehetőséget ad nagyobb párhuzamosításra és gyorsabb válaszadásra.

Felmerülnek azonban új kérdések: vajon a diffúziós megközelítés hogyan befolyásolja a modell gondolatmenetét és problémamegoldó képességét? Milyen kompromisszumokkal jár a rövid input és output hossza? Hogyan változik a minta felismerő és logikai készség egy ilyen új architektúra esetén?

A bemutatott demók során kitérnek több logikai feladvány és történelmi kérdés megválaszolására is, és látható, hogy a diffúziós modell eltérően viselkedik a hagyományos auto-regresszív nyelvi modellektől. Az is szóba kerül, hogy milyen hardveres erőforrásokra van szükség az ilyen modellek futtatásához, és milyen jövőbeli lehetőségek rejlenek a Google által elindított kutatási projektben.