Multimodális AI ügynök irányítja a böngészőt kizárólag vizuális adatok alapján ✦ UMA

Ismerd meg, hogyan irányíthat egy nyílt forráskódú mesterséges intelligencia teljesen önállóan egy böngészőt, kizárólag vizuális információk alapján.

Képzelj el egy olyan mesterséges intelligenciát, amely kizárólag a képernyő tartalmára támaszkodva önállóan képes utasításokat végrehajtani a böngészőben – pontosan úgy, ahogy egy ember tenné. Ebben a videóban egy ilyen úttörő rendszer, a Malmo Web működését és telepítését ismerhetjük meg.

Felmerül a kérdés: hogyan képes egy vizuálisan tájékozódó, multimodális ügynök csak képernyőképek alapján logikus lépéseket hozni, kattintani, gépelni és navigálni a weben? A fejlesztők nemcsak a modell súlyait, hanem a teljes tanítási folyamatot, az értékelési eszközöket és a benchmarkokat is nyilvánossá tették, ami ritkaságnak számít a hasonló AI-ügynökök világában.

A bemutató során gyakorlati példán keresztül teszik próbára a rendszert: egy konkrét utazási keresésen keresztül mutatják be, hogyan talál meg járatokat és árakat egyedül, emberi segítség nélkül. Elgondolkodtató, hogy a néhány milliárdos, viszonylag kicsi modell még nagyobb, zárt rendszereknél is jobban teljesít bizonyos mérőszámokban és feladatokban.

Egy másik izgalmas kérdés az automatizált navigáció sebessége és hatékonysága: vajon meddig jut el ezen a téren a technológia, és mennyire képes leutánozni az emberi szemléletet anélkül, hogy közvetlenül az oldal forráskódját olvasná?

Multimodális AI ügynök irányítja a böngészőt kizárólag vizuális adatok alapján

Hasonló tartalmak:

Claude vs. OpenClaw: Melyik AI asszisztens a jobb választás?

Intel Ultra 7 270K Plus: Erős kihívó az AMD-nek, de megéri-e?

Négyféle kvantumszámítógép bemutatója: különleges kubit technológiák és gyakorlati alkalmazások az Nvidia GTC-n

AI és digitális ikerpárok forradalmasítják a gyógyszergyártást az Eli Lillynél

Lenovo Legion 7a Gen 11 részletes bemutató: Előnyök és kompromisszumok tapasztalt felhasználóknak