Az Alibaba legújabb fejlesztéséről, a VideoRefer nevű videómodellről van szó, amely az Apache 2 licenc alatt érhető el. Ez az eszköz képes felismerni és szegmentálni objektumokat a videókban, továbbá kérdésekre is választ ad az adott objektumokra vonatkozóan.
Felmerül a kérdés, hogyan reagálnak a jelenlegi nagy nyelvi modellek a videókban látható elemekre, és hogy a VideoRefer képes-e pontosabb elemzést nyújtani az egyes objektumok időbeli és térbeli viselkedéséről. A néző megismerkedhet az objektumalapú videóértelmezést elősegítő architektúrával és a hozzá tartozó, 700 ezer objektumszintű videóinstrukciót tartalmazó VideoRefer 700K adattárral is.
Az installáció során bemutatják, hogyan futtatható helyben a modell egy GPU-val rendelkező rendszeren, illetve miként zajlik a folyamat a szükséges szoftverek telepítésétől kezdve egészen a demó használatáig.
Külön érdekesség, hogy a néző betekintést nyerhet a modell funkcionalitásába: egy adott videó képkockáin kiválasztott objektumokra lehet kérdezni, például egy kutya vagy egy ember viselkedésére, kinézetére és kapcsolatára más objektumokkal.
A tesztelés során felmerülnek limitációk is, főként a vizuális kérdés-válasz (VQA) funkcióban és az objektumok kapcsolatának felismerésében, ami újabb fejlesztési irányokat vázol fel az érdeklődők előtt.