Bemutatásra kerül az Nvidia legújabb, helyileg futtatható mesterséges intelligencia modellje, a Locate Anything, amely képes képeken és videókon pontosan megtalálni és beazonosítani különféle objektumokat. Ezzel az AI-val egyetlen kattintással felismerhető például a sushi egy képen, vagy akár specifikus objektumok is megtalálhatók forgalmi helyzetekben, összetett weboldalakon vagy kézzel írt dokumentumokban.
A 3 milliárd paraméteres vision-language modell hatalmas, 12 millió képet tartalmazó adathalmazon tanult, és fejlesztők számára is elérhető. Például robotikában, autonóm járműveknél vagy automatizált adatfelcímkézésnél is alkalmazható. A telepítés lépései mellett bemutatjuk, hogy milyen különböző feladatokat végezhet el: objektumdetektálás, grounding, OCR (szövegfelismerés), GUI elemek pontos beazonosítása és egy adott pont koordinátáinak megjelölése is elérhető.
Érdekes kérdéseket vet fel a modell sokoldalúsága: mikor érdemes a detektálást vagy a nyelvi leírás alapú lokalizációt választani? Hogyan birkózik meg különböző minőségű képekkel vagy AI-generált jelenetekkel? A demonstráció során a VRAM-fogyasztás is figyelemmel kísért téma, valamint felmerül az is, mennyire alkalmas a modell fejlesztői vagy akár hétköznapi felhasználói környezetben.










