A
A
  • Angol
  • Magyar
  • 18 perc

Új áttörés az MIT-nél: végtelen hosszúságú szövegeket dolgoznak fel a nyelvi modellek

Az MIT új megoldását mutatja be a videó, amely lehetővé teszi a nyelvi modellek számára, hogy szinte korlátlan hosszúságú szövegekkel dolgozzanak, miközben megőrzik a minőséget és csökkentik a költségeket.

Az MIT kutatói új megközelítést mutatnak be a nyelvi modellek kontextusablakának problémájára, amely alapvetően meghatározza, mekkora mennyiségű információval képes egy nyelvi modell egyszerre dolgozni. A videó sorra veszi, milyen kihívásokkal jár, ha egy bemenő szöveg hossza túlnövi a modell hagyományos fizikai korlátait.

Felvetődik a kérdés: lehetséges-e drasztikusan kitágítani a kontextusablak méretét anélkül, hogy a modell magját módosítanánk? A kutatók szerint ez igenis elérhető egy új, ún. rekurzív nyelvi modell (RLM) stratégiával, amely lehetővé teszi, hogy akár több millió szavas bemenetet is hatékonyan feldolgozzunk.

A videó bemutatja a jelenlegi gyakorlati megoldások – például a bemeneti kontextus tömörítése vagy összegzése – hátrányait, kiemelve, hogy ezek információveszteséggel és minőségromlással járnak. Ugyanakkor az MIT módszere lehetőséget ad arra, hogy ne vesszenek el részletek, valamint intelligensebb, keresésalapú hozzáférést kínál az adatállományhoz.

Több benchmark tesztet is bemutatnak – például a „needle in the haystack” vagy az „ulong” próbákat –, amelyek során a technika megbízhatóságát, skálázhatóságát és költséghatékonyságát vizsgálták különböző nagy nyelvi modellekkel.