Az óriási méretű, több száz milliárd paraméteres mesterséges intelligencia modellek, mint például a GPTOSS vagy a Deepseek, futtatása modern GPU-kon különleges megoldásokat igényel. Egyetlen GPU memóriakapacitása sok esetben már nem elegendő ezekhez az óriási modellekhez, ami izgalmas technológiai kihívásokat vet fel.
A videó különböző párhuzamosítási megközelítéseket mutat be, mint az adat-, tensor- és pipeline párhuzamosítás, majd hangsúlyt kap a szakértői (expert) párhuzamosítás. Ennek lényege, hogy a modell feed-forward blokkjait külön GPU-kon futtatják, miközben egy router irányítja, mely részfeladatok mely szakértőhöz kerülnek a feldolgozandó tokenek közül. Az egyes tokenek így csak a releváns, célzott szakértői egységeken haladnak át, ami jelentősen növeli a modell méretezhetőségét.
Részletesen kerül szóba, hogyan lehet egyszerű Python kód segítségével kombinálni az expert és tensor párhuzamosítási megközelítéseket, továbbá bemutatásra kerül annak gyakorlati alkalmazása, amikor több száz GPU-t is kihasználunk egy komplex modell kiszolgálására élő környezetben. Felmerül a kérdés: milyen előnyei és korlátai lehetnek az egyes párhuzamosítási stratégiáknak? Hogyan lehet ezeket kombinálni a gyakorlatban, hogy még nagyobb modelleket tehessünk elérhetővé sok ezer felhasználó számára?
Az elméleti bemutató mellett a néző betekintést nyer abba is, hogyan működik technikailag a mixture of experts koncepció és milyen egyszerűen megvalósítható a kód szintjén napjaink legfrissebb AI könyvtáraival. Mindeközben a produkciós környezetekben várható kihívásokról és a felhasznált hardverek kihasználtságáról is szó esik.