Nvidia Locate Anything: Az objektumfelismerés új dimenziója képeken és videókon ✦ UMA

Az Nvidia új Locate Anything modellje helyileg futtatható, és példátlan pontossággal képes beazonosítani objektumokat képeken és videókon. A videóban lépésről lépésre végigkövethető a telepítés, valamint a legérdekesebb funkciók kipróbálása.

Bemutatásra kerül az Nvidia legújabb, helyileg futtatható mesterséges intelligencia modellje, a Locate Anything, amely képes képeken és videókon pontosan megtalálni és beazonosítani különféle objektumokat. Ezzel az AI-val egyetlen kattintással felismerhető például a sushi egy képen, vagy akár specifikus objektumok is megtalálhatók forgalmi helyzetekben, összetett weboldalakon vagy kézzel írt dokumentumokban.

A 3 milliárd paraméteres vision-language modell hatalmas, 12 millió képet tartalmazó adathalmazon tanult, és fejlesztők számára is elérhető. Például robotikában, autonóm járműveknél vagy automatizált adatfelcímkézésnél is alkalmazható. A telepítés lépései mellett bemutatjuk, hogy milyen különböző feladatokat végezhet el: objektumdetektálás, grounding, OCR (szövegfelismerés), GUI elemek pontos beazonosítása és egy adott pont koordinátáinak megjelölése is elérhető.

Érdekes kérdéseket vet fel a modell sokoldalúsága: mikor érdemes a detektálást vagy a nyelvi leírás alapú lokalizációt választani? Hogyan birkózik meg különböző minőségű képekkel vagy AI-generált jelenetekkel? A demonstráció során a VRAM-fogyasztás is figyelemmel kísért téma, valamint felmerül az is, mennyire alkalmas a modell fejlesztői vagy akár hétköznapi felhasználói környezetben.

Nvidia Locate Anything: Az objektumfelismerés új dimenziója képeken és videókon

Hasonló tartalmak:

Larry Ellison vagyonának növekedése az Oracle AI áttörésével

Az Nvidia kihívja az Apple Silicont az új RTX Spark szuperchippel

Nvidia forradalmasítja a PC-k jövőjét az új RTX Spark laptopokkal

Egyszerre futtatott AI-k: Lehetőségek és kihívások a Claude Co-work platformon

AI rövidfilmek készítése egy következetes karakterrel