A
A
  • Angol
  • Magyar
  • 22 perc

Hogyan építsünk villámgyors AI clustert AMD Strix Halo minigépekből otthon

Az AMD Strix Halo minigépekből épített négynódos AI cluster optimalizálásának kalandja: hardveres buktatók, szoftveres trükkök és az open source szoftverek meglepő ereje.

Mitől lesz igazán gyors egy többcsomópontos AI fürt, ha minden hardveradottság megvan hozzá? A videó bemutatja egy négygépes AMD Strix Halo cluster kiépítésének és optimalizálásának folyamatát, amely során a készítő végigmegy a hardveres és szoftveres akadálypályán.

Az elérhető óriási memóriakapacitás és a modern PCIe-n keresztüli hálózati kapcsolatok ellenére sokáig lassúnak bizonyult a rendszer. Felmerül a kérdés: hol húzódik a valódi szűk keresztmetszet? A sávszélességben, a késleltetésben vagy épp a szoftveres rétegben keresendő a hiba?

Kísérletek során különböző LLM futtatási módokat, mint például Llama.cpp RPC-t és tensor parallelizmust is kipróbáltak, illetve kétféle RDMA megoldást (iWARP, RoCE) vetettek össze. Bevezetőként a Quen, Llama és DeepSeek modelleken keresztül mutatják be a skálázódás kihívásait, miközben érdekes hardverkompatibilitási problémák, kernel verziók közti eltérések és kvantizációs buktatók is felmerülnek.

Felvetődik, hogyan erősíthetik fel egymást a szoftveres és hardveres innovációk, és hol akadályozhatják egymást egy ilyen fejlett, mégis érzékeny rendszerben. Szó esik arról is, hogy miért számít sokkal többet a késleltetés, mint a puszta adatátviteli sebesség egy ilyen klaszterben. A magyarázat során kiderül, hogyan sikerült végül megelőzni a Minis Forum saját gyári marketingdemóját open source szoftverrel.

Persze az út nehéz, tele zsákutcákkal: szoftveres inkompatibilitások, eltérő hálózati protokollok, hiányzó Linux driverek és gyakori újraindítások nehezítik a skálázást. A videó végén kézzel fogható összehasonlítás születik: meddig és miben érdemes feszegetni a cluster lehetőségeit, és mire építhetnek tovább a jövőben szoftver- és hardverfejlesztők egyaránt.