Az NVIDIA új Nemotron Cascade 30B-A3B modellje izgalmas fejlesztésként jelenik meg az open-source mesterséges intelligencia területén. Bár sok szó esik a kínai AI-laborokról, a nyugati fejlesztők között az NVIDIA is egyre jelentősebb szerepet vállal a nyílt forráskódú modellek terén.
A videó bemutatja, hogyan működik a Cascade modell, amely egy 30 milliárd paraméteres mixture of experts architektúra, de egyszerre csak három milliárd paraméter aktív, ezzel is növelve a hatékonyságot. Az elkészített tréning-pipeline érdekes elemeket tartalmaz, többek között többfázisú felügyelt tanítást, különböző reinforcement learning lépéseket, valamint egy innovatív MOPD (multi-domain on-policy distillation) lépést, amely egyedülálló módon segíti a modell teljesítményét.
Részletesen szó esik a felhasznált hardverről is, például egy Nvidia A100 GPU-ról, valamint a szükséges szoftverkörnyezet előkészítéséről. A gyakorlati bemutató során a modell különböző kódolási és problémamegoldó feladatokban mérettetik meg, és betekintést nyerhetünk abba is, hogyan értékeli a szakértő a kimeneteket, illetve milyen problémák merülhetnek fel a használat során.
Kiemelt figyelmet kap a modell benchmarking eredménye, amely kiemelkedő teljesítményt mutatott nemzetközi szinten elismert matematikai és programozói versenyeken, annak ellenére, hogy lényegesen kisebb, mint a legtöbb rivális modell. Felmerül a kérdés: vajon ez az új tréningelési megközelítés lesz a jövő útja a nagy nyelvi modelleknél?










