A
A
  • Angol
  • Magyar
  • 9 perc

A Google új AI-modellje forradalmasítja a böngészőalapú automatizálást

A Google új, mesterséges intelligenciára épülő számítógép-használati modellje átalakíthatja, hogyan automatizáljuk és kezeljük a böngészőalapú feladatokat API nélkül.

Egy új, a Google által fejlesztett számítógép-használati modell bemutatásával ismerkedhetünk meg, amely a Gemini 2.5 Pro speciális, utólag betanított változatán alapul. Az egyik érdekessége, hogy az eszköz képes összetett, böngészőalapú feladatokat végrehajtani: kattint, gépel, görget, sőt, akár bejelentkezés nélkül is navigál oldalakon, és API-hozzáférés nélkül is elvégez feladatokat weboldalakon.

Felvetődik a kérdés, hogy a felhasználói felületek irányítása mesterséges intelligenciával mennyire változtatja meg a webes működést és az automatizáció lehetőségeit. A modell például böngészőben képes végigmenni lépésről lépésre, miközben folyamatos visszacsatolások alapján határozza meg a következő lépéseket, így valódi emberi interakciót szimulál.

Az elérhetőségéről is szó esik: az eszközt jelenleg előzetes verzióban a Gemini API révén lehet használni, és bár helyileg nem tölthető le, ingyenes API-kulccsal lehet kipróbálni. Ugyanakkor egyelőre főleg webes böngészőkben, illetve részben mobilalkalmazásokban működik, de a klasszikus asztali operációs rendszereken még nem tud automatizált műveleteket végrehajtani.

A technológia hátterének újdonságai is felmerülnek: például a multimodális feldolgozás, a UI-vezérléshez optimalizált architektúra, illetve az egyes műveleti lépések strukturált visszacsatolása. Milyen hatással lehet mindez a mindennapi számítógép-használatra, és hová fejlődhet egy ilyen eszköz néhány éven belül?