A
A
  • Angol
  • Magyar
  • 14 perc

Range One: Új áttörés az AI világában Ashish Vaswani-tól

A Range One nevű, 8 milliárd paraméteres helyi AI-modell innovatív architektúrájával, példátlan sebességével és sokoldalúságával hívja fel magára a figyelmet a mesterséges intelligencia világában.

Az Essential AI vezérigazgatója, Ashish Vaswani – a Transformer modell egyik megalkotója – új, nyílt forráskódú nyelvi modellt mutat be Range One néven. Ez a 8 milliárd paraméteres modell minden elemét Kaliforniában tanították be teljesen az alapoktól. Nem csak apróbb hangoláson ment keresztül, hanem egy teljesen új architektúráról van szó.

A bemutató során szó esik a modell építészeti sajátosságairól: például a globális figyelemmechanizmusról minden rétegben, a 32 rétegű felépítésről, a hatalmas kontextushosszról, és a gyorsításra bevezetett újdonságokról. Az előadó kiemeli, hogy a fejlesztéseknek köszönhetően a modell nagyobb, drágább változatokat is megelőz bizonyos matematikai, kódolási és valós problémamegoldó feladatokban.

Bemutatásra kerül, miként lehet a modellt helyben, saját számítógépen futtatni, miközben a szükséges hardverigényeket (pl. Nvidia RTX 6000 GPU) és telepítési folyamatokat is ismertetik. A Range One különleges abból a szempontból is, hogy gyors és hatékony még akkor is, ha tömörített, például 4-bites kvantizált változatban használják egyszerűbb laptopokon.

A tesztelési szakaszban az új modellt különféle feladatokon próbálják ki: színes animációs rakéta HTML-ben való megalkotása, komplex matematikai feladványok (például Lagrange-mechanika, koordinátatranszformációk) és Python kód generálása, valamint kreatív, humoros irodalmi szituáció szimulálása két történelmi személyiséggel. A videó ezen keresztül vezeti fel a kérdést, mennyire átfogó és pontos a modell kódgenerálásban, matematikában, nyelvi feladatokban és mennyire képes többnyelvű válaszokat adni.

Felmerül az is, hogy a modell főként angolul képes jól teljesíteni, európai nyelvekben korlátozott, más nyelveknél pedig hibázik. Ez arra ösztönöz, hogy tovább gondoljuk: vajon mennyire tudják a jövő AI-modelljei átlépni a nyelvi akadályokat, illetve mely felhasználási területeken hozhatnak valódi áttörést a helyi futtathatóság és az optimalizált teljesítmény révén?