A
A
  • Angol
  • Magyar
  • 9 perc

Új távlatok a nyelvi modellek világában: lenyűgöző teljesítmény egy kisméretű, megfizethető AI-modell révén

Egy szokatlanul kicsi, mégis nagyobb modelleket leköröző nyelvi modell kerül bemutatásra, amely egy új, költséghatékony fejlesztési irány alapjait vetíti előre.

Meglepő eredményt ért el egy mindössze 1 milliárd paraméteres nyelvi modell, amelyet kevesebb mint 1500 dolláros költségvetésből képeztek ki: több matematikai és szövegértési feladatban is felülmúlta akár 7 milliárd paraméteres versenytársait, és teljesítményben versenyképes a GPT-3.5 modellel is.

Felmerül a kérdés, hogyan lehetséges egy ilyen kis méretű modellhez ilyen erős teljesítmény társítása? A fejlesztők egy dupla ciklusú feldolgozási szerkezetet alkalmaztak, amelyet az emberi agy eltérő gondolkodási szintjei ihlettek: a rendszer egy gyors modulon finomítja, majd egy lassabb modulon továbbfejleszti a belső reprezentációkat, minden előrelépésnél többszörös belső számítást végezve.

A modellt kimondottan kérdés-válasz párokon képezték, nem pedig nyers webszövegen, ezáltal minden lépésében a hasznos kimenetre koncentrál. Az érdeklődők számára releváns lehet az is, hogy nyílt forráskódú, Apache 2 licenc alatt érhető el, és viszonylag szerény hardverigény mellett is tesztelhető helyben.

A videó kitér olyan technikai megoldásokra is, mint a nyers kontroll tokenek használata és a különböző válaszadási módok, amelyek között lényeges kontraszt rajzolódik ki – gondolkodó, lépésenként érvelő válaszok, illetve rövid, egyszerű kijelentések is elérhetőek anélkül, hogy chatasszisztensként finomhangolva lenne a modell.

Felmerül a kérdés, vajon milyen új lehetőségek nyílhatnak meg egy ennyire olcsón előállított, mégis teljesítményképes alapmodell finomhangolásával a jövőben. Ezeken a témákon keresztül egy új paradigma alapjai sejlenek fel a mesterséges intelligencia fejlesztésében.