A
A
  • Angol
  • Magyar
  • 9 perc

Jan-Nano-128k: Új nyelvi modell a hosszú szövegek mestere

Bemutatják a Jan-Nano-128k kompakt nyelvi modellt, és részletesen megmutatják, miként lehet helyben telepíteni, majd valós példákon keresztül tesztelni a hosszú kontextus kezelésére vonatkozó képességeit.

Egy új, 4 milliárd paraméteres mesterséges intelligencia nyelvi modell, a Jan-Nano-128k kerül bemutatásra és gyakorlati kipróbálásra ebben a videóban. Az anyag részletesen ismerteti, hogyan telepíthető a modell helyileg egy Nvidia RTX A6000 GPU-val rendelkező Ubuntu rendszerre, és milyen szoftveres eszközökre – például a VLM nevű gyors és könnyű inferencia-motorra – lesz szükség a használatához.

Érdekes kérdéseket vet fel a hosszú, natív 128 000 tokenes kontextusablak lehetősége, amely nagy előrelépést jelent az előző modellekhez képest. Vizsgálat tárgyát képezi, hogy a modell miként birkózik meg teljes regényekkel vagy összetett, többkörös beszélgetésekkel egy munkamenetben, valamint mennyire képes pontosan visszaemlékezni a korábbi információkra, például karakterfejlődések és későbbi következtetések összekapcsolásakor.

A tesztelés során bemutatott példák között szerepel a Moby Dick klasszikus regény feldolgozása, specifikus kérdésekkel korai és késői fejezetekből, illetve egy hírhedten nehéz „needle in the haystack” teszt, amely azt vizsgálja, mennyire pontosan képes a modell pozícióérzékenyen megtalálni célzott információkat hosszú szövegkörnyezetben.

Felmerülnek technikai aspektusok is, így például a VRAM-fogyasztás vagy az úgynevezett rope scaling (pozíciós kiterjesztés) hatása a teljesítményre, továbbá a modell integrációjának lehetőségei külső adatforrásokkal és API-kkal. A videó részint gyakorlati példákat mutat be, részint a hosszú kontextusú modellek fejlesztésével kapcsolatos kérdéseket tárgyal.