Új áttörés az MIT-nél: végtelen hosszúságú szövegeket dolgoznak fel a nyelvi modellek ✦ UMA

Az MIT új megoldását mutatja be a videó, amely lehetővé teszi a nyelvi modellek számára, hogy szinte korlátlan hosszúságú szövegekkel dolgozzanak, miközben megőrzik a minőséget és csökkentik a költségeket.

Az MIT kutatói új megközelítést mutatnak be a nyelvi modellek kontextusablakának problémájára, amely alapvetően meghatározza, mekkora mennyiségű információval képes egy nyelvi modell egyszerre dolgozni. A videó sorra veszi, milyen kihívásokkal jár, ha egy bemenő szöveg hossza túlnövi a modell hagyományos fizikai korlátait.

Felvetődik a kérdés: lehetséges-e drasztikusan kitágítani a kontextusablak méretét anélkül, hogy a modell magját módosítanánk? A kutatók szerint ez igenis elérhető egy új, ún. rekurzív nyelvi modell (RLM) stratégiával, amely lehetővé teszi, hogy akár több millió szavas bemenetet is hatékonyan feldolgozzunk.

A videó bemutatja a jelenlegi gyakorlati megoldások – például a bemeneti kontextus tömörítése vagy összegzése – hátrányait, kiemelve, hogy ezek információveszteséggel és minőségromlással járnak. Ugyanakkor az MIT módszere lehetőséget ad arra, hogy ne vesszenek el részletek, valamint intelligensebb, keresésalapú hozzáférést kínál az adatállományhoz.

Több benchmark tesztet is bemutatnak – például a „needle in the haystack” vagy az „ulong” próbákat –, amelyek során a technika megbízhatóságát, skálázhatóságát és költséghatékonyságát vizsgálták különböző nagy nyelvi modellekkel.

Új áttörés az MIT-nél: végtelen hosszúságú szövegeket dolgoznak fel a nyelvi modellek

Hasonló tartalmak:

Amikor az AI elfelejt okos lenni: miért romlik a beszélgetés minősége?

AI-forradalom: az egészségügytől a robotikáig minden fronton új kihívások

Heti AI újdonságok: új modellek és techóriások együttműködései

Új utak az álláskeresésben: a mesterséges intelligencia és az interaktív platformok szerepe

Anthropic áttörés: a Claude Co-work gyors fejlesztése átalakíthatja a jövő üzleteit