Az új Holo 1.5 modell egy olyan vizuális-nyelvi mesterséges intelligencia, amelyet kifejezetten számítógépes alkalmazások vezérlésére fejlesztettek ki. Ez a modell képes kezelni és értelmezni különféle felhasználói felületeket, felismeri a gombokat, mezőket, valamint lokalizálja azok pontos helyzetét a képernyőn. Ennek köszönhetően képes valós alkalmazások irányítására és automatizálására.
A videó betekintést ad abba, hogyan telepíthető helyben a Holo 1.5 modell, és a gyakorlatban is bemutatja a működését egy Ubuntu rendszeren, Nvidia RTX A6000 GPU segítségével. Megismerhetjük a modellt felépítő többlépcsős tanítási folyamatot, amely nagyméretű felügyelt és online megerősítéses tanulást is alkalmaz az optimális eredmény érdekében.
Különféle példákon keresztül látható, hogyan reagál és old meg konkrét feladatokat: például űrlapok kitöltése, UI-elemek felismerése, vagy több lépéses folyamatok végrehajtása valódi szoftverekben. A videó arra ösztönöz, hogy a nézők is gondolkodjanak el a lehetőségeken, hiszen egy ilyen eszközzel jelentősen növelhető az automatizálás és a munka hatékonysága.
Felmerül a kérdés, hogy mennyire pontosan képesek ezek a modellek kezelni a bonyolultabb felhasználói felületeket, illetve mennyire könnyen integrálhatók saját projektjeinkbe vagy munkahelyi alkalmazásainkba. Az is érdekes szempont, hogy a teljesítmény és az erőforrásigény hogyan viszonyul a hasonló modellekhez, például a Scale CUA-hoz.