Ebben az epizódban a DMAX-coder 16B nevű nyelvi modellt mutatják be, amely képes az összes szöveges tokent egyszerre generálni, nem pedig sorban, mint a hagyományos autoregresszív modellek. A videó során felmerül a kérdés: miként tud egy ilyen architektúra ugyanakkora pontosságot elérni, mint akár háromszor nagyobb modellek?
További érdekességként bemutatják a diffúziós modellek működését, különös hangsúlyt fektetve a maszkos szekvenciákra és a blokkokban történő token generálás folyamatára. A soft decoding technika és az önrevízió lehetősége is kiemelésre kerül, ezek révén a modell képes újraértékelni és javítani saját válaszait.
A demó során egy Ubuntu rendszeren, Nvidia RTX 3060 GPU segítségével telepítik és futtatják a modellt, majd egy összetett, valós idejű HTML-vizualizációs feladattal tesztelik. Az is felmerül, hogy a modell nem rendelkezik többnyelvű képességekkel, ugyanakkor a tudás- és kódolási feladatokban megbízhatóan teljesít. A videóban, több koncepció részletes kifejtése mellett, azt is vizsgálják, miben különbözik gyökeresen ez a párhuzamos szöveggenerálás az autoregresszív eljárásoktól.









