Az Essential AI vezérigazgatója, Ashish Vaswani – a Transformer modell egyik megalkotója – új, nyílt forráskódú nyelvi modellt mutat be Range One néven. Ez a 8 milliárd paraméteres modell minden elemét Kaliforniában tanították be teljesen az alapoktól. Nem csak apróbb hangoláson ment keresztül, hanem egy teljesen új architektúráról van szó.
A bemutató során szó esik a modell építészeti sajátosságairól: például a globális figyelemmechanizmusról minden rétegben, a 32 rétegű felépítésről, a hatalmas kontextushosszról, és a gyorsításra bevezetett újdonságokról. Az előadó kiemeli, hogy a fejlesztéseknek köszönhetően a modell nagyobb, drágább változatokat is megelőz bizonyos matematikai, kódolási és valós problémamegoldó feladatokban.
Bemutatásra kerül, miként lehet a modellt helyben, saját számítógépen futtatni, miközben a szükséges hardverigényeket (pl. Nvidia RTX 6000 GPU) és telepítési folyamatokat is ismertetik. A Range One különleges abból a szempontból is, hogy gyors és hatékony még akkor is, ha tömörített, például 4-bites kvantizált változatban használják egyszerűbb laptopokon.
A tesztelési szakaszban az új modellt különféle feladatokon próbálják ki: színes animációs rakéta HTML-ben való megalkotása, komplex matematikai feladványok (például Lagrange-mechanika, koordinátatranszformációk) és Python kód generálása, valamint kreatív, humoros irodalmi szituáció szimulálása két történelmi személyiséggel. A videó ezen keresztül vezeti fel a kérdést, mennyire átfogó és pontos a modell kódgenerálásban, matematikában, nyelvi feladatokban és mennyire képes többnyelvű válaszokat adni.
Felmerül az is, hogy a modell főként angolul képes jól teljesíteni, európai nyelvekben korlátozott, más nyelveknél pedig hibázik. Ez arra ösztönöz, hogy tovább gondoljuk: vajon mennyire tudják a jövő AI-modelljei átlépni a nyelvi akadályokat, illetve mely felhasználási területeken hozhatnak valódi áttörést a helyi futtathatóság és az optimalizált teljesítmény révén?









