A
A
  • Angol
  • Magyar
  • 9 perc

Új dimenzió a képfeldolgozásban: Google DeepMind TIPS v2 modell helyben futtatva

A Google DeepMind új TIPS v2 modellje egyszerre képes képeket szöveghez párosítani, tárgyakat lokalizálni és felismerni, ráadásul könnyedén futtatható helyben is.

Képzeld el, ha egy mesterséges intelligencia képes lenne egyszerre felismerni, mi látható egy képen, hol helyezkednek el az objektumok rajta, és szöveghez is párosítani a látottakat – mindezt egyetlen modell segítségével. Az új, a Google DeepMind által fejlesztett TIPS v2 éppen ezt a kombinált feladatot vállalja fel.

Az epizód bemutatja, miként tudjuk a TIPS modellt helyben futtatni akár egy átlagos GPU-n vagy CPU-n, és milyen módon dolgozza fel a képinformációkat, valamint a szöveges leírásokat ugyanabban a térben. A technológia lehetővé teszi, hogy egyetlen modell végezzen klasszifikációt, szegmentációt vagy mélységbecslést is, anélkül hogy külön-külön modellekre lenne szükség.

A részletes szemléltetés során az alkotó bemutatja, hogyan képes a TIPS nemcsak felismerni egy macskát a képen, hanem azt is meghatározni, pontosan hol található az objektum. Ezt a részletes patch-alapú feldolgozást különböző színkódokkal vizualizálva követhetjük. Az ismeretterjesztő demó rávilágít arra, miként működik a térbeli megértés, és hogyan képes a modell szöveges leírás alapján kiemelni a megfelelő képi tartalmat – mindezt előzetes tanítás vagy finomhangolás nélkül.

Az epizód felveti annak kérdését, vajon milyen új lehetőségeket teremthet egy ilyen sokoldalúan alkalmazható, kompakt és hatékony AI-modell a képfeldolgozás és a gépi látás területén, illetve hogy milyen további alkalmazások előtt nyithat kaput ez a megközelítés.