A
A
  • Angol
  • Magyar
  • 17 perc

Új generációs mesterséges intelligencia a Kaishu vállalattól: multimodális nagy nyelvi modell bemutatója otthoni használatra

Egy új generációs multimodális mesterséges intelligenciát ismerhetünk meg, amely képes képek, videók, táblázatok és szövegek komplex értelmezésére helyi futtatás közben.

Az ismertetett videó egy úttörő multimodális nagy nyelvi modellt mutat be, amelyet a Kaishu vállalat fejlesztett ki, és amely különféle vizuális adatok – például képek és videók – feldolgozására, értelmezésére alkalmas. Ebben a részben a nézők megtanulhatják, hogyan lehet a modellt helyileg telepíteni, kipróbálni különféle GPU-kon, és mérni annak erőforrás-felhasználását.

A bemutató során részletesen ismertetésre kerül a modell architektúrája, beleértve a vizuális kódoló és a nyelvi modell együttműködését, a dinamikus felbontástámogatást, valamint a 3D Rope pozíciókódolást, mely lehetővé teszi a videók időbeli leképezését és elemzését is. A modell előtréningelésének lépései is szóba kerülnek, amelyek kiemelik a különféle előfeldolgozási és igazítási módszereket.

A néző betekintést nyerhet abba, hogyan birkózik meg az eszköz többféle feladattal: képek leírásával, sávállapotok elemzésével közlekedési táblák alapján, OCR-feladatok megvalósításával különböző nyelveken, kézírás felismerésével, matematikai példák felismerésével és megoldásával, táblázatos adatok strukturált kinyerésével, illetve videók leírásával és vizuális jelenetek elemzésével.

Különféle példák világítanak rá a modell erősségeire és korlátaira, mint például az OCR képességek többnyelvűsége, a kézírás felismerésének pontossága, illetve a táblázatos adatok értelmezésének felületessége vagy részletessége. Felmerül a kérdés, hogy milyen helyzetekben teljesít kiemelkedően a modell, illetve mely területeken lenne szükség finomhangolásra vagy fejlesztésre.