A
A
  • Angol
  • Magyar
  • 11 perc

Nvidia Nemotron Nano 9B V2: gyorsabb és sokoldalúbb nyelvi modell bemutatója

Az Nvidia legújabb nyelvi modelljét, a Nemotron Nano 9B V2-t mutatják be részletes benchmarkokkal és technikai újításokkal, kiemelve a modell sebességét és sokoldalúságát.

Kutatók és fejlesztők számára izgalmas hír, hogy az Nvidia bemutatta a Nemotron Nano 9B V2 nevű új, kompakt nyelvi modelljét. A videóban naprakész benchmarkeredményeket tárgyalnak, összehasonlítva a Quen 38B hasonló paraméterű modellel, rávilágítva a teljesítménybeli különbségekre, például a feladatkövetés, matematikai, tudományos és kódolási feladatok terén. Figyelemre méltó, hogy a sebesség akár hatszor gyorsabb lehet riválisaihoz képest.

Újítást jelent a hibrid architektúra, amely ötvözi a Mamba és transformer rendszereket, ezáltal egyszerre támogatja az ésszerű gondolkodást és a gyors végrehajtást. A modell kis mérete lehetővé teszi futtatását otthoni vagy akár élvonalbeli (edge) rendszereken is. A felhasználók számára hozzáférhetővé vált a pretrain adathalmaz, amellyel saját modelleket is lehet fejleszteni.

Felmerül a kérdés, hogy mennyire rugalmas a gondolkodási folyamat szabályozása, hiszen a ‘reasoning budget’ (gondolkodási költségvetés) befolyásolja, hogy egy adott problémán mennyi ideig „gondolkodik” a modell. A videó részletesen bemutatja a tréning fázisokat és az adatok összetételének változásait, valamint azt, hogyan változott az arány a kód, STEM és általános internetes tartalmak között a képzés során.

Demonstrációk során látható, hogy mennyire gyorsan és pontosan képes válaszokat adni egyszerű vagy egészen összetett kérdésekre is, akár a ‘Harry Potter’ karakter, akár a ‘Mamba architektúra’ ismertetése kapcsán. A videó végigvezet a reasoning és a gondolkodási tokenek szabályozhatóságán, eszközhasználaton, valamint bemutatja a build.envidia.com platform lehetőségeit is.