Mi történik, amikor több mesterségesintelligencia-modellt kell egyszerre nagyvállalati környezetben kiszolgálni? A videó bemutatja, hogyan lehet ilyen igényeket kiszolgálni az NVIDIA Triton Inference Server segítségével, amely támogatja a GPU- és CPU-hátterű modelleket is.
Különféle gépi tanulási keretrendszerek – például PyTorch, TensorFlow vagy ONNX runtime – együttműködését lehetővé tevő nyílt forráskódú inferencia platform kapja a főszerepet, amelyet Kubernetes-alapú infrastruktúrán, konkrétan AWS EKS-en telepítenek és üzemeltetnek.
Praktikus példákon keresztül ismerkedhetünk meg azzal, hogyan lehet több verziójú és eltérő hardveren futó modellek konfigurációját és elérhetőségét kezelni. Kiderül, milyen mappastruktúrát és konfigurációs beállításokat igényel a modelltelepítés, illetve hogyan történik az S3 bucket használata annak érdekében, hogy központilag tároljuk és kezeljük a különböző modelleket.
Felszínre kerülnek olyan kérdések is, mint a valós idejű telemetria, a dashboard monitorozás (például Grafanával) vagy a párhuzamosan, több hardveren futó lekérdezések kezelése. Emellett megtudhatjuk, milyen folyamatok és komponensek állnak egy skálázható AI-modellkiszolgáló infrastruktúra mögött, és miért lesz ez a tudás a jövőben egyre fontosabb.









