A
A
  • Angol
  • Magyar
  • 15 perc

Milyen tényezők befolyásolják a mesterséges intelligencia sebességét különböző hardvereken?

Milyen tényezők befolyásolják igazán a nagy nyelvi modellek sebességét? A videó többféle hardver és szoftver összehasonlításán keresztül mutatja be a párhuzamos terhelés és kvantizáció valódi jelentőségét.

Az összehasonlítás középpontjában különféle csúcskategóriás gépek – például a DJX Spark, a Mac Studio M3 Ultra, valamint az AMD és Beink megoldásai – teljesítményének bemutatása áll, amikor nagy nyelvi modelleket (LLM-eket) futtatnak különféle szoftverek és kvantizációs eljárások mellett.

Külön figyelmet kap, hogy a szokásos, egyfelhasználós benchmarkok gyakran félrevezetők lehetnek, mivel a valós alkalmazásokban rendszerint több párhuzamos lekérdezés (konkurencia) éri a rendszert, ami más terhelési eredményeket hoz. A tesztelés így egy sor tipikus és extrém terhelési szcenáriót is magában foglal, hogy kiderüljön, miként viselkednek a különböző gépek és kvantizációs technikák valódi körülmények között.

A szoftveres oldal széles skálán mozog: bemutatkozik a Llama CPP, a VLM és az MLX is, amelyek különböző futási sebességeket és áttöréseket mutatnak bizonyos hardvereken és kvantizációknál – például FP4, Integer 8 vagy 4 bit. Izgalmas kérdés, melyik szoftver és platform teljesít jól alacsony vagy magas konkurencia és eltérő tokenszám mellett, és hogyan befolyásolja ezt a választott kvantizációs eljárás.

Váratlan eredmények is születnek egyes kombinációknál: több helyen kiderül, hogy a megszokott favoritok helyett egy kevésbé ismert szoftver vagy hardver kiemelkedően szerepel bizonyos tesztkörnyezetekben, ami új perspektívákat adhat a jövőbeli LLM-futtatásokhoz és infrastruktúra-választáshoz.