A
A
  • Angol
  • Magyar
  • 11 perc

NVIDIA Nemotron Elastic: Több AI modell egy fájlban, rugalmas választási lehetőséggel

Az NVIDIA Nemotron Elastic újítása több, eltérő méretű AI modellt egyesít egyetlen fájlban, amelyek között hardverigény és feladat szerint is választhatunk.

Az NVIDIA újonnan bejelentett fejlesztése, a Nemotron Elastic mesterséges intelligencia modellcsalád több különböző méretű, de egymásba ágyazott, párhuzamosan elérhető nyelvi modellt kínál egyetlen letölthető fájlban. Ezek 12, 23 és 30 milliárd paraméteres modellek, amelyeket a hardver képességei vagy a kívánt sebesség alapján választhatunk ki.

A modell felépítését az orosz matrjoska babákhoz hasonlítják, hiszen a legnagyobb modell „belsejében” két kisebb is megtalálható; ugyanazokat a súlyokat használják, mégis külön-külön futtathatók. Az architektúra három fő összetevőből áll: a Mamba réteg a szekvenciák feldolgozásáért felel, a figyelem alapú hálózat a mélyebb következtetéseket végzi el, míg a mixture-of-experts réteg csak egy kis részét aktiválja a hálózatnak minden bemeneti tokenre, így gazdaságosabb a működése.

Telepítés közben megismerjük, miként lehet Ubuntu szerveren, akár kisebb VRAM-mal rendelkező GPU-n is hatékonyan futtatni a teljes modellt vagy a mennyiségileg kisebb verziókat. A vLLM motort használva, egy-egy bemutatott paranccsal pillanatok alatt elérhető, hogyan lehet a különböző modelleket élesíteni.

Érdekes kérdések is felvetődnek: vajon tényleg képes-e egyetlen AI modell nemcsak szöveges chatre, de bonyolult alkalmazások – például valós idejű légiforgalmi irányító rendszer – kódjának elkészítésére? Ezen kívül bemutatják, hogyan oldja meg a modell az összetett utasításokat, és miként választhatunk az eltérő méretű verziók közül, akár külön finomhangolás nélkül.