Ebben a videóban különböző hardverplatformokat hasonlítanak össze, hogy kiderüljön, melyik képes a leggyorsabban előállítani egymillió tokent mesterséges intelligencia modell futtatásával. Az összehasonlítás résztvevői között szerepel egy belépő szintű grafikus kártyával szerelt asztali gép, egy csúcskategóriás Nvidia DGX Spark, egy Beink GTR9 Strix Halo APU-s gép, valamint a nagy teljesítményű Mac Studio M3 Ultra.
A teszthez minden gépnek ugyanazt a, négy milliárd paraméterrel rendelkező Quen 3 4B nagy nyelvi modellt kellett futtatnia. A videó azt is bemutatja, hogy mennyire fontos a választott szoftverkörnyezet: a VLM, MLX és Llama CPP könyvtárak különböző konkurenciakezeléssel és kompatibilitással működnek, illetve változik a könnyűségi szintjük is a beüzemelés és futtatás terén.
A nézők betekintést kapnak abba is, hogyan mérik a teljesítményt és az energiahatékonyságot: mennyi idő alatt teljesül az egymillió token generálása, mennyi energiát fogyasztanak hozzá a gépek, és mi a számítási költség. A bemutató során felmerülnek érdekes kérdések a szoftveres és hardveres optimalizációkkal, a valós életbeli felhasználási esetekkel, valamint a különböző platformok közötti ár-érték aránybeli különbségekkel kapcsolatban.
Az alkotó még egy rövid kitérőt is tesz egy sokkal nagyobb, 480 milliárd paraméteres modell futtatására egy nyolc H200 GPU-val felszerelt felhős klaszteren keresztül, felvetve, mennyire más szinten működik egy ekkora hardverkészlet, és mennyi lehetőség rejtőzik még az optimalizálásban vagy a nagyvállalati felhasználásban.










