A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 9 perc

Nemotron 3 Super: az NVIDIA új nyelvi modellje a többnyelvűség jegyében

A videóban bemutatják az NVIDIA Nemotron 3 Super modellt, annak innovatív architektúráját, és valós példákon keresztül tesztelik a teljesítményét, különös tekintettel a többnyelvűségre és a kódolási képességekre.

Az NVIDIA legújabb nagy nyelvi modelljét, a Nemotron 3 Supert ismerteti a videó, mely 120 milliárd paraméterrel rendelkezik, és hatékonyságát egy új, latens architektúrával éri el. A Mixture of Experts (MoE) megközelítés révén csak az aktuálisan releváns részmodell aktiválódik, így csökkentve az energia- és erőforrásigényt.

Az architektúra különlegessége, hogy előzetesen tömöríti az adatokat latens terekbe, mielőtt továbbítaná azokat a megfelelő szakértőhöz. Ez lehetővé teszi a feldolgozási teljesítmény növelését anélkül, hogy lemondanának a pontosságról. A modell NVFP4 kvantálást alkalmaz, tehát négyszeres pontosságú számokat használ, ami jelentős memóriamegtakarítást jelent.

Bemutatásra kerül az is, hogy a modell valós példákon hogyan teljesít, többek között egy önálló HTML-oldal megalkotásával, amely AI-jal vezérelt paradicsomtermesztő rendszer működését szemlélteti. A szereplő teszteli a modell különböző funkcióit, például a többnyelvűséget, és azt is, hogy képes-e szerepjáték során kultúrafüggő, természetes választ adni változatos nyelvi helyzetekben.

Felmerülnek olyan kérdések, mint: milyen mértékben képes a modell a nem támogatott (pl. arab) nyelveknél valósághűen reagálni, mennyire gyors a konkurens modellekhez képest, illetve hol találhatók a fő erősségei – például komplex kódolási feladatok, nagy adathalmazok kezelése vagy többnyelvű kommunikáció során.