Az Nvidia legújabb mesterséges intelligencia modellje, a NeMo-Tron 2 Tower 30B A3 base, komoly újdonságokat hoz a szöveggenerálás világába. Ez a modell egy kétoszlopos (two-tower) architektúrát alkalmaz, amely eltér az eddigi, egy tokenes, sorról sorra történő generálási módszerektől.
Egyik központi kérdés az, hogyan tudja párhuzamosan kezelni a szöveg előállítását – azaz egyszerre több szót vagy karaktert is képes létrehozni, miközben megőrzi a generált tartalom minőségét. A két torony közül az egyik hagyományos módon, tokenről tokenre feldolgozza a szövegkörnyezetet, míg a másik torony egy újfajta, blokkszintű generálást valósít meg diffúziós eljárással.
A bemutatott eljárás érdekessége, hogy a két torony folyamatosan együttműködik: az úgynevezett „denoiser” torony rétegenként kihasználja a „konteksthordozó” torony tudását, gyorsabb szöveggenerálást lehetővé téve. Komoly előny lehet, hogy ez a megoldás nem utólagos trükkökkel próbál gyorsítani, hanem az egész rendszert alapjaiban újragondolja.
Felmerülnek ugyanakkor hardveres kihívások is. A modell teljes kiaknázásához legalább két, nagy kapacitású grafikus kártya szükséges, amely jelentős erőforrásokat feltételez. Az architektúra újdonsága vitát indított az AI közösségben: vajon a diffúziós modellek tényleg felvehetik a versenyt a megszokott autoregresszív megközelítéssel – legalábbis szöveges feladatokban?









