Képzeld el, ha egy mesterséges intelligencia képes lenne egyszerre felismerni, mi látható egy képen, hol helyezkednek el az objektumok rajta, és szöveghez is párosítani a látottakat – mindezt egyetlen modell segítségével. Az új, a Google DeepMind által fejlesztett TIPS v2 éppen ezt a kombinált feladatot vállalja fel.
Az epizód bemutatja, miként tudjuk a TIPS modellt helyben futtatni akár egy átlagos GPU-n vagy CPU-n, és milyen módon dolgozza fel a képinformációkat, valamint a szöveges leírásokat ugyanabban a térben. A technológia lehetővé teszi, hogy egyetlen modell végezzen klasszifikációt, szegmentációt vagy mélységbecslést is, anélkül hogy külön-külön modellekre lenne szükség.
A részletes szemléltetés során az alkotó bemutatja, hogyan képes a TIPS nemcsak felismerni egy macskát a képen, hanem azt is meghatározni, pontosan hol található az objektum. Ezt a részletes patch-alapú feldolgozást különböző színkódokkal vizualizálva követhetjük. Az ismeretterjesztő demó rávilágít arra, miként működik a térbeli megértés, és hogyan képes a modell szöveges leírás alapján kiemelni a megfelelő képi tartalmat – mindezt előzetes tanítás vagy finomhangolás nélkül.
Az epizód felveti annak kérdését, vajon milyen új lehetőségeket teremthet egy ilyen sokoldalúan alkalmazható, kompakt és hatékony AI-modell a képfeldolgozás és a gépi látás területén, illetve hogy milyen további alkalmazások előtt nyithat kaput ez a megközelítés.








