A
A
  • Angol
  • Magyar
  • 5 perc

Jetson Thor és a VLLM: Generatív AI sebességrobbanás szoftverfrissítéssel

Mennyivel lehet gyorsabb a generatív AI egyetlen frissítéssel? Az Nvidia Jetson Thor új szoftverével lenyűgöző ugrásokat mérhetünk, de a legnagyobb előnyök forrása nem mindig egyértelmű.

Az anyagban olyan szoftveres frissítésekről hallhatunk, amelyek a nagy nyelvi modellek (LLM) futtatását hivatottak hatékonyabbá tenni a Jetson Thor platformon. Az Nvidia új VLLM motorjának optimalizációi, beleértve a flash infer támogatást és az Xformers integrációt, azt vizsgálják, hogyan lehet egyszerre jobb teljesítményt kihozni ugyanabból a hardverből.

Érdekes kérdéseket vet fel az, hogy a GPU-specifikus fejlesztések mellett mennyire fontos a szoftveres környezet folyamatos javítása, illetve hogy a VLLM szerver milyen új technikákat alkalmaz több felhasználós kiszolgálásra. Emellett felmerülnek olyan kérdések, mint az erőforrás-menedezsment optimalizálási lehetőségei, például a GPU-memória kihasználása vagy a dinamikus felhasználói kiszolgálás összetettsége.

A bemutatott mérési eredményekből az is kiderül, hogy a teljesítménynövekedések különböző nyelvi modellek és eltérő felhasználói terhelések esetén változó mértékűek lehetnek. Megvizsgálják, hogy milyen tényezők vezetnek a legnagyobb gyorsuláshoz, és hogyan hat a modell mérete, illetve a csatlakozó felhasználók száma a sebességre.