A
A
  • Angol
  • Magyar
  • 10 perc

Több AI-modell futtatása egyszerre az NVIDIA Triton szerverrel az AWS EKS rendszeren

A videó lépésről lépésre mutatja be, hogyan lehet több AI-modellt egyszerre, GPU-n és CPU-n is futtatni és kiszolgálni az NVIDIA Triton szerverrel az AWS EKS környezetben.

Mi történik, amikor több mesterségesintelligencia-modellt kell egyszerre nagyvállalati környezetben kiszolgálni? A videó bemutatja, hogyan lehet ilyen igényeket kiszolgálni az NVIDIA Triton Inference Server segítségével, amely támogatja a GPU- és CPU-hátterű modelleket is.

Különféle gépi tanulási keretrendszerek – például PyTorch, TensorFlow vagy ONNX runtime – együttműködését lehetővé tevő nyílt forráskódú inferencia platform kapja a főszerepet, amelyet Kubernetes-alapú infrastruktúrán, konkrétan AWS EKS-en telepítenek és üzemeltetnek.

Praktikus példákon keresztül ismerkedhetünk meg azzal, hogyan lehet több verziójú és eltérő hardveren futó modellek konfigurációját és elérhetőségét kezelni. Kiderül, milyen mappastruktúrát és konfigurációs beállításokat igényel a modelltelepítés, illetve hogyan történik az S3 bucket használata annak érdekében, hogy központilag tároljuk és kezeljük a különböző modelleket.

Felszínre kerülnek olyan kérdések is, mint a valós idejű telemetria, a dashboard monitorozás (például Grafanával) vagy a párhuzamosan, több hardveren futó lekérdezések kezelése. Emellett megtudhatjuk, milyen folyamatok és komponensek állnak egy skálázható AI-modellkiszolgáló infrastruktúra mögött, és miért lesz ez a tudás a jövőben egyre fontosabb.