Az NVIDIA újonnan bejelentett fejlesztése, a Nemotron Elastic mesterséges intelligencia modellcsalád több különböző méretű, de egymásba ágyazott, párhuzamosan elérhető nyelvi modellt kínál egyetlen letölthető fájlban. Ezek 12, 23 és 30 milliárd paraméteres modellek, amelyeket a hardver képességei vagy a kívánt sebesség alapján választhatunk ki.
A modell felépítését az orosz matrjoska babákhoz hasonlítják, hiszen a legnagyobb modell „belsejében” két kisebb is megtalálható; ugyanazokat a súlyokat használják, mégis külön-külön futtathatók. Az architektúra három fő összetevőből áll: a Mamba réteg a szekvenciák feldolgozásáért felel, a figyelem alapú hálózat a mélyebb következtetéseket végzi el, míg a mixture-of-experts réteg csak egy kis részét aktiválja a hálózatnak minden bemeneti tokenre, így gazdaságosabb a működése.
Telepítés közben megismerjük, miként lehet Ubuntu szerveren, akár kisebb VRAM-mal rendelkező GPU-n is hatékonyan futtatni a teljes modellt vagy a mennyiségileg kisebb verziókat. A vLLM motort használva, egy-egy bemutatott paranccsal pillanatok alatt elérhető, hogyan lehet a különböző modelleket élesíteni.
Érdekes kérdések is felvetődnek: vajon tényleg képes-e egyetlen AI modell nemcsak szöveges chatre, de bonyolult alkalmazások – például valós idejű légiforgalmi irányító rendszer – kódjának elkészítésére? Ezen kívül bemutatják, hogyan oldja meg a modell az összetett utasításokat, és miként választhatunk az eltérő méretű verziók közül, akár külön finomhangolás nélkül.









