A
A
  • Angol
  • Magyar
  • 8 perc

CU1: A nyílt forráskódú látásmodell, amely megkönnyíti a felhasználói felületek kezelését

A videó a CU1 nevű nyílt forráskódú számítógépes látásmodellt mutatja be, amely önálló ügynököket segít a felhasználói felületek elemzésében és automatizálásában, helyi CPU-n futtatva.

Az utóbbi hónapokban egyre több számítógépes felhasználói ügynök jelent meg, amelyek önállóan képesek kezelni grafikus felületeket. Az új CU1 modell különlegessége, hogy nyílt forráskódú, MIT licenc alatt érhető el, szemben a többi elterjedt alternatívával, mint például az Omni Parser V2, amely AGPL3-as licencet használ.

A videó bemutatja, hogyan telepíthető és futtatható helyben, CPU-n a CU1 modell, valamint szemlélteti működését különböző saját és generált UI képeken keresztül. Felmerülnek kérdések a felismerési pontosságról, a modell által igényelt erőforrásokról, valamint arról, hogy milyen esetekben lehet érdemes ezt a megoldást választani.

Érdekes téma a modell architektúrája: az RFDTR M detection transformer gerincét használja, amelyet kifejezetten UI elemek lokalizálására optimalizáltak. A képzési stratégiában az UI elemeket egyetlen osztályként kezelik, így a hangsúly a pontos lokalizáción van.

Szó esik arról is, hogy a kereskedelmi szoftverek fejlesztőinek milyen előnyöket biztosít a szabad licencelés, illetve milyen kompromisszumokra kényszerülhetnek, ha hasonló eszközöket kívánnak alkalmazni vállalati automatizálás vagy RPA platformokban. A videó nem ad végső választ arra, hogy a CU1 tökéletes helyettesítője lehet-e a nagyobb nevű automatizációs rendszereknek, de felveti azokat a szempontokat, amelyek alapján dönteni lehet.