A
A
  • Angol
  • Magyar
  • 11 perc

Böngésző-ügynökök új hulláma: ismerd meg a Surfer H és a Runner H rendszereket!

Egy új, nyílt forráskódú böngésző-ügynök rendszert és annak forradalmi, vizuális alapú működését ismerhetjük meg, amely új szintre emeli a webes automatizációt.

Az új generációs böngésző ügynökök most olyan képességekkel rendelkeznek, amelyek forradalmasíthatják a webes automatizálást. Egy vezető technológiai vállalat egy komplex böngésző-ügynök keretrendszert adott ki, amelyet nyílt forráskóddal tettek mindenki számára elérhetővé. A háttérben dolgozó modellek, valamint a fejlesztési folyamat részletei egy közzétett tudományos cikkben is elérhetők.

Kiemelések között szerepel a Runner H böngésző ügynök, amely jelenleg bétatesztelés alatt áll, és bárki kipróbálhatja. Ez az ügynök képes automatizált webes feladatokat végrehajtani: például a felhasználó nevében keres az eBay-en, adatokat gyűjt, majd egy Google táblázatba exportálja azokat. Az alkalmazás egyszerre több ügynök futtatását is támogatja, így párhuzamosan különböző feladatokat lehet elláttatni.

A háttérben dolgozó Surfer H keretrendszer és Hollow One modellek különösen hatékonyak abban, hogy felismerjék, hova kell kattintani a képernyőn anélkül, hogy a weboldal kódját látnák. Ezek a könnyű, költséghatékony és jól skálázható VLM-ek (vision-language modellek) a képernyőképek alapján döntenek, milyen lépéseket hajtsanak végre, miközben visszacsatolást is alkalmaznak eredményeik javítására.

Bemutatják, hogy a Surfer H három fő modulon alapul: egy cselekvési javaslatokon alapuló „policy”, egy pontos lokalizációs algoritmus, valamint egy érvényesítő rendszer, amely visszacsatolja a hibás megoldásokat. A rendszer specialitása, hogy valóban emberi módon, vizuális interakcióval végzi a feladatokat előre meghatározott szabályok helyett.

A bemutató kitér arra is, mennyire hatékony a Hollow One család más modellekkel, például a GPT-4-gyel vagy más VLM-ekkel szemben, mind költség, mind pontosság szempontjából. A fejlesztők által nyitva hagyott kérdések között szerepel, hogy miként lehet széleskörűen alkalmazni ezeket az ügynököket, és hogyan alakíthatják át a webes automatizáció, a tesztelés és a mindennapi munkafolyamatok automatizálását.