A BU csendben, de magabiztosan jelentette meg az Ernie 4.5 VL-28B-A3B gondolkodó változatát, amely helyi futtatásra is alkalmas. A videóban a legfrissebb vizuális-nyelvi modell minőségi és technológiai fejlesztéseiről esik szó, kiemelkedően fókuszálva az emberhez hasonló, lépésről lépésre zajló vizuális következtetésre.
Felmerül a kérdés, hogy miként kapcsolódik össze a nagymodellű mesterséges intelligencia az emberi gondolkodás mintázataival, főként, ha komplex képfeldolgozásra és nyelvi feladatokra van szükség. A részletes tesztelés során szóba kerülnek azok a benchmarkok, amelyekben a modell szokatlanul erősen teljesít, legyen szó vizuális problémamegoldásról, többnyelvű szövegfelismerésről vagy képek részletes elemzéséről.
A technikai részletek is kiemelésre kerülnek: a modell mérete, hogy hány paraméter aktív egyidejűleg, illetve, hogy mindezt egyetlen GPU-n is képes futtatni – bemutatva a VRAM-használat optimalizálását. Megfigyelhető az is, hogyan mutatkoznak meg a tréning különböző fázisai – pre-, mid- és poszt-tréning – közötti éles különbségek, és hogy milyen szerepe van a multimodális erősítéses tanulásnak.
Az AI gondolatmenetét különösen érdekesnek találja a készítő: a mesterséges intelligencia mintha ‘hangosan gondolkodna’, elemzi, javítja önmagát és összefüggéseket keres, miközben például egy többnyelvű szöveg OCR-elemzését vagy egy generált terep részletes leírását végzi. A kérdés nyitva marad: mennyire képes valóban emberhez fogható gondolkodásra egy mai nagy nyelvi modell?










