A
A
  • Angol
  • Magyar
  • 8 perc

Multimodális AI ügynök irányítja a böngészőt kizárólag vizuális adatok alapján

Ismerd meg, hogyan irányíthat egy nyílt forráskódú mesterséges intelligencia teljesen önállóan egy böngészőt, kizárólag vizuális információk alapján.

Képzelj el egy olyan mesterséges intelligenciát, amely kizárólag a képernyő tartalmára támaszkodva önállóan képes utasításokat végrehajtani a böngészőben – pontosan úgy, ahogy egy ember tenné. Ebben a videóban egy ilyen úttörő rendszer, a Malmo Web működését és telepítését ismerhetjük meg.

Felmerül a kérdés: hogyan képes egy vizuálisan tájékozódó, multimodális ügynök csak képernyőképek alapján logikus lépéseket hozni, kattintani, gépelni és navigálni a weben? A fejlesztők nemcsak a modell súlyait, hanem a teljes tanítási folyamatot, az értékelési eszközöket és a benchmarkokat is nyilvánossá tették, ami ritkaságnak számít a hasonló AI-ügynökök világában.

A bemutató során gyakorlati példán keresztül teszik próbára a rendszert: egy konkrét utazási keresésen keresztül mutatják be, hogyan talál meg járatokat és árakat egyedül, emberi segítség nélkül. Elgondolkodtató, hogy a néhány milliárdos, viszonylag kicsi modell még nagyobb, zárt rendszereknél is jobban teljesít bizonyos mérőszámokban és feladatokban.

Egy másik izgalmas kérdés az automatizált navigáció sebessége és hatékonysága: vajon meddig jut el ezen a téren a technológia, és mennyire képes leutánozni az emberi szemléletet anélkül, hogy közvetlenül az oldal forráskódját olvasná?