A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 12 perc

Microsoft Phi-4 Reasoning Vision 15B: A helyben futtatható AI modell képi és szöveges adatok feldolgozására

A Microsoft új, helyben futtatható, 15 milliárd paraméteres multimodális AI modellje forradalmi megoldásokat kínál képi és szöveges adatok feldolgozására, valamint komplex vizuális érvelési feladatokra.

A Microsoft bemutatta új multimodális mesterséges intelligencia modelljét, a Phi-4-Reasoning-Vision-15B-t, amely helyben is futtatható. A bemutató során részletesen megismerhetjük, miként lehet telepíteni a modellt helyi számítógépre Ubuntu rendszeren, különösen egy Nvidia RTX 6000 GPU-val, valamint milyen lépések szükségesek a szoftverek, például a VLLM és annak bővítményei elindításához és konfigurálásához.

Kiemelt figyelem irányul arra, hogy a Phi-4-Reasoning-Vision-15B képes képeket és szövegeket is feldolgozni bemenetként, a válaszokat pedig szöveges formában adja vissza. A modell fő erőssége abban rejlik, hogy tudományos és matematikai érvelési folyamatokat támogat vizuális adatok – például diagramok, képletek vagy képernyőképek – alapján, továbbá alkalmazható számítógépes ügynökök feladataihoz, mint például felhasználói felületek elemzése, kattintások helyének meghatározása.

Az architektúra bemutatása során megtudhatjuk, hogy a vizuális adatokat egy speciális, a Google által fejlesztett SigLip nevű vizuális kódoló dolgozza fel, amely a képeket tokenekké alakítja. Ezek a vizuális tokenek egy további projekciós rétegen keresztül illeszkednek a szöveges tokenekhez, és úgynevezett midfusion technológiával integrálódnak az AI nyelvi modelljébe. Izgalmas kérdésként merülnek fel a dinamikus felbontási stratégia előnyei és a benchmarking során elért eredmények, valamint hogy ez a modell hogyan versenyez más, nagyobb modellekkel szemben.

Gyakorlati példákon keresztül láthatjuk, hogy a rendszer milyen hatékonyan képes bonyolult matematikai egyenleteket, kézzel írt szövegeket, diagramokat és üzleti dokumentumokat (például számlákat) értelmezni és feldolgozni. Felmerül a kérdés, hogy mennyire használható jelenleg különböző nyelveken, valamint milyen gyakorlati alkalmazási lehetőségek vannak a valós életben, különösen üzleti környezetben vagy digitális asszisztensként. Titokzatos marad az, hogy milyen konkrét megoldásokkal segíti a felhasználót a modell, és mely helyzetekben bizonyul a leghatékonyabbnak.