A
A
  • Angol
  • Magyar
  • 9 perc

Mesterséges intelligencia a képernyőn: bemutatkozik a UI Venus 1.5 modell

Az Inclusion AI UI Venus 1.5 modellje képes automatikusan értelmezni és irányítani bármilyen képernyőt, ha képet és szöveges utasítást kap – a videó bemutatja a telepítést, a működést és legfontosabb tulajdonságait.

Az önálló, mesterséges intelligenciával vezérelt felhasználói felületek navigációja már régóta izgalmas kutatási terület. A videó során egy újszerű fejlesztés, a UI Venus 1.5 modell helyi telepítését és kipróbálását követhetjük végig.

A bemutatott UI Venus 1.5 az Inclusion AI-tól egy kompakt, de rendkívül hatékony ügynök, amely képes képernyőfotók alapján eldönteni, milyen műveleteket hajtson végre: kattintás, gépelés, gördítés – mindezt teljesen automatizált módon. A technológia a Quen 3VL nevű multimodális látás- és nyelvmodellre épül, ennek köszönhetően ötvözi a képek és a szöveges utasítások értelmezését.

Érdekes kérdések merülnek fel a modell általánosíthatóságával kapcsolatban, például mennyire boldogul különböző nyelvű alkalmazásokkal, vagy mennyire pontosan képes azonosítani különféle felületi elemeket. Felvetődik az is, hogy miképpen zajlott a modell betanítása, és milyen mérési eredményekkel teljesít mobilos vagy webes GUI-kkal szemben.

Egyes példákban a rendszer képességeit tesztelik: például egy kínai zenei alkalmazás vagy egy angol receptoldal navigálásán át, azt vizsgálva, mikor és hogyan képes helyes koordinátákat visszaadni az interakcióhoz.

A tesztek során részleteket tudhatunk meg a hardverigényekről, a telepítés lépéseiről, az integrációs lehetőségekről, és szóba kerül az is, hogyan hasonlítható össze más hasonló megoldásokkal, illetve mely területeken mutat előnyt vagy lemaradást a UI Venus 1.5.