Két eltérő hardverkörnyezet – egy Nvidia Blackwell GPU-ra épített DGX Spark és egy Apple Mac Studio M3 Ultra – közös LLM-futtatásának kísérletét mutatja be a videó.
A narrátor részletesen ismerteti a prompt feldolgozás (prefill) és a token generálás (decode) eltérő hardverigényeit, illetve ezek optimalizálásának lehetőségeit. Körbejárja, hogyan lehet előnyt kovácsolni abból, ha „szétválasztva” két külön eszközre tesszük a feladatok ezen fázisait. Iparági példák is megjelennek, jelezve, hogy nagyvállalatok már élnek hasonló technikákkal.
A kísérletek során számtalan kihívás akadályozza a tökéletes együttműködést: hálózati kompatibilitási gondok, hardver- és driverproblémák, különböző modellek és kvantálások beállítása. A fő kérdés az, hogy vajon érdemes-e a két platform előnyeit kombinálni, vagy egy modern, önálló GPU-s rendszer még mindig lehagyja őket?
Részletes összehasonlítások érintik a különféle LLM-változatokat (például Llama 3.18B, Quen 32B, Gemma 27B) és azok futtatási sebességét, különböző konfigurációkkal. Megjelenik a hálózati sávszélesség hatása, a modellek különféle méretben és kvantálásban, illetve a szoftveres megoldások sora is szóba kerül.
A konkrét végkifejlet elkerülésével a videó fő témái: a vegyes architektúrájú rendszerekben rejlő lehetőségek, kijátszható hardveres és szoftveres akadályok, illetve az LLM-futtatás jövője – talán most alakulnak ki az erre alkalmas otthoni vagy kutatói gépek ideális kombinációi?










