Kínai kutatóintézetek egymás után jelentkeznek új, nyílt forráskódú AI modellekkel, amelyek célja a hosszú videók hatékony feldolgozása. Az egyik legújabb fejlesztés, a Beijing Academy of Artificial Intelligence által bemutatott Video Excel 2 modell, egyedi architektúrájával próbálja áthidalni a memóriahasználat és a válaszidő kapcsán fellépő nehézségeket, amelyek eddig gátolták a hasonló programok teljesítményét.
A felhasználó lépésről lépésre mutatja be, hogyan lehet helyben, saját gépen telepíteni és működtetni ezt az újdonságot – kiemelve a szükséges szoftvereket, a prerequisitumokat és a gyakorlati buktatókat is. A telepítés során szó esik például arról, hogyan lehet optimális GPU-használatot biztosítani, valamint hogy milyen platformokon keresztül érhető el a modell.
Kiemelt téma a Video Excel 2 architektúrája: a SIGLIP vizuális kódolója, a dinamikus token szintetizátor (DTS) és a Quen 2.5 Instruct modul együttesen gondoskodnak a vizuális adatok tömörítéséről és a hatékony értelmezésről. Ezek közösen teszik lehetővé, hogy akár többórás videók is megfelelő memóriakezeléssel legyenek feldolgozhatóak.
A tesztelés során különböző AI-generált és valós videók elemzésével mérhető, hol és mennyire pontos a modell leírása: az emberi szereplők felismerésétől a részletes helyszínleírásokon át egészen a valósághűség kérdéséig. Különös hangsúlyt kapnak azok a helyzetek, amikor a rendszer nem tud pontos választ adni, vagy eltéveszti a személyazonosítást – izgalmas kérdéseket vetve fel a jövőbeli fejlesztési irányokról is.