A
A
  • Angol
  • Magyar
  • 11 perc

Alibaba VideoRefer: Az objektumalapú videóelemzés új dimenziója helyi telepítéssel

Az Alibaba VideoRefer modellje új szintre emeli a videók objektumalapú értelmezését, lehetőséget adva helyi kipróbálásra és tesztelésre is.

Az Alibaba legújabb fejlesztéséről, a VideoRefer nevű videómodellről van szó, amely az Apache 2 licenc alatt érhető el. Ez az eszköz képes felismerni és szegmentálni objektumokat a videókban, továbbá kérdésekre is választ ad az adott objektumokra vonatkozóan.

Felmerül a kérdés, hogyan reagálnak a jelenlegi nagy nyelvi modellek a videókban látható elemekre, és hogy a VideoRefer képes-e pontosabb elemzést nyújtani az egyes objektumok időbeli és térbeli viselkedéséről. A néző megismerkedhet az objektumalapú videóértelmezést elősegítő architektúrával és a hozzá tartozó, 700 ezer objektumszintű videóinstrukciót tartalmazó VideoRefer 700K adattárral is.

Az installáció során bemutatják, hogyan futtatható helyben a modell egy GPU-val rendelkező rendszeren, illetve miként zajlik a folyamat a szükséges szoftverek telepítésétől kezdve egészen a demó használatáig.

Külön érdekesség, hogy a néző betekintést nyerhet a modell funkcionalitásába: egy adott videó képkockáin kiválasztott objektumokra lehet kérdezni, például egy kutya vagy egy ember viselkedésére, kinézetére és kapcsolatára más objektumokkal.

A tesztelés során felmerülnek limitációk is, főként a vizuális kérdés-válasz (VQA) funkcióban és az objektumok kapcsolatának felismerésében, ami újabb fejlesztési irányokat vázol fel az érdeklődők előtt.