A Meta új fejlesztését, a Dino v3 modellt mutatják be, amely jelentős előrelépést jelent az általános célú vizuális reprezentáció tanulásban. Egy önfelügyelt tanulási módszert alkalmazó látásmodellről van szó, amelyet 1,7 milliárd címkézetlen képen tréningeztek – mindezt anélkül, hogy emberi annotációkra szükség lett volna.
Központi témaként jelenik meg a Vision Transformer alapú architektúra, amelyben újszerű technikát, a Graham anchoringot használnak a sűrű jellemzők tanításának stabilizálásához. Ennek eredményeként a Dino v3 fagyasztott háttérmodellként is kiemelkedő teljesítményt nyújt olyan feladatokban, mint az objektumdetektálás, szemantikus szegmentáció vagy videókövetés.
A demonstráció során a Google Colab eszköz kerül előtérbe, ahol lépésről lépésre végigvezetnek a modell telepítésén és kipróbálásán. Megismerhető, hogyan végezhető el mintázatfelismerés vagy jellemző-alapú párosítás két kép között – legyen szó akár sűrű, akár ritka megfeleltetésről.
Fókuszba kerül a gyakorlati implementáció is: szó esik a képek feldarabolásáról, a patch-ek és maszkok definiálásáról, illetve a képi jellemzők kinyeréséről, amely révén a modell részletes megfeleltetéseket képes azonosítani két, hasonló, ám eltérő kép között. Mindez szemléletes példán, két szamár képeinek párosításán keresztül válik igazán érthetővé.
Felvetődik az is, hogy milyen új megoldások, demók (például Gradio-felület) könnyíthetik meg a modellel való munkát a jövőben, miközben a technológia alkalmazhatóságának határait is feszegetik.