Egy új, a Google által fejlesztett számítógép-használati modell bemutatásával ismerkedhetünk meg, amely a Gemini 2.5 Pro speciális, utólag betanított változatán alapul. Az egyik érdekessége, hogy az eszköz képes összetett, böngészőalapú feladatokat végrehajtani: kattint, gépel, görget, sőt, akár bejelentkezés nélkül is navigál oldalakon, és API-hozzáférés nélkül is elvégez feladatokat weboldalakon.
Felvetődik a kérdés, hogy a felhasználói felületek irányítása mesterséges intelligenciával mennyire változtatja meg a webes működést és az automatizáció lehetőségeit. A modell például böngészőben képes végigmenni lépésről lépésre, miközben folyamatos visszacsatolások alapján határozza meg a következő lépéseket, így valódi emberi interakciót szimulál.
Az elérhetőségéről is szó esik: az eszközt jelenleg előzetes verzióban a Gemini API révén lehet használni, és bár helyileg nem tölthető le, ingyenes API-kulccsal lehet kipróbálni. Ugyanakkor egyelőre főleg webes böngészőkben, illetve részben mobilalkalmazásokban működik, de a klasszikus asztali operációs rendszereken még nem tud automatizált műveleteket végrehajtani.
A technológia hátterének újdonságai is felmerülnek: például a multimodális feldolgozás, a UI-vezérléshez optimalizált architektúra, illetve az egyes műveleti lépések strukturált visszacsatolása. Milyen hatással lehet mindez a mindennapi számítógép-használatra, és hová fejlődhet egy ilyen eszköz néhány éven belül?