A vizuális érvelési képességek fejlődése új távlatokat nyitott a mesterséges intelligencia alkalmazásában. A videó egy úttörő AI modellt, a GLM 4.1V-9B-Thinking-et mutatja be, amely képes képeken és videókon keresztüli összetett gondolkodásra – ráadásul teljesen ingyenesen és helyileg telepíthető módon.
Részletesen bemutatja, hogyan lehet ezt a modellt telepíteni, elindítani, és különböző feladatokhoz használni, például képelemzéshez, OCR-feladathoz, számlakiértékeléshez és különféle, humorral átszőtt problémák megoldásához. A demonstrációk során szó esik a láncszerű gondolatmenetekről, a modellel folytatott interakcióról, valamint a képi információk elemzéséről lépésről lépésre.
Az előadó külön kitér a modell erősségeire és javításra szoruló területeire, például hogyan birkózik meg többnyelvű szövegek felismerésével vagy a képernyőképeken megjelenő feladatok értelmezésével. Megjelennek a bonyolultabb, való életből vett problémák is, amelyekben a humort és az öniróniát is bevetik annak érdekében, hogy látható legyen, mennyire rugalmasan és kreatívan tud reagálni a mesterséges intelligencia a felhasználói igényekre.