Bemutatásra kerül a legújabb, nyílt forráskódú, főként programozóknak készített nagy nyelvi modell, a Qwen 3 Coder, amely óriási, 480 milliárd paraméterrel rendelkezik. Az óriási modell futtatásához jelentős memóriamennyiségre van szükség, ezért a fejlesztők egy otthoni gépeken is használható, 30 milliárd paraméteres verziót is kiadtak, amelyet különféle kvantizációs szinteken lehet betölteni.
Érdekes kérdéseket vet fel a videó, például hogy a modern, felső kategóriás grafikus kártyák, mint az RTX 5090, mennyire alkalmasak ezen modellek futtatására. Kiderül, mennyi VRAM-ra van ténylegesen szükség, mikor csúszik át a feldolgozás a CPU-ra, és hogyan hat mindez a működési sebességre. Szóba kerül az Apple Silicon architektúrája is, amely a magasabb egységes memóriakapacitásnak köszönhetően meglepő teljesítményt mutat bizonyos esetekben.
Összehasonlításokat látunk különböző kvantizációs szintek, GPU-k és platformok között, többféle hosszúságú és összetettségű prompttal. Vizsgálják a különbségeket több GPU összehangolt használatakor, továbbá bemutatják, hogyan lehet optimalizálni a memóriakezelést és erőforrás-elosztást szoftveres megoldásokkal.
Felvetődik, milyen alternatív megoldások léteznek Windows és Linux felhasználók számára, valamint hogyan befolyásolja a promptok hossza és típusa a feldolgozási sebességet. A kapott eredmények rámutatnak az eltérő architektúrák közötti jelentős teljesítménykülönbségekre, valamint arra is, hogy az optimalizáció mekkora szerepet játszik az élményszerű használatban.