Az IBM legújabb Granite 4.0 3B Vision modellje egy innovatív, 3 milliárd paraméteres látás-nyelvi rendszer, amelyet kifejezetten vállalati dokumentum- és adatkinyerési feladatokra terveztek. Megjelenését sokan várták, hiszen jelentős technológiai fejlesztések előzték meg, különösen az AI kutatásokban és gyakorlatban.
A modell praktikus előnye, hogy egyszerre kezeli a vizuális és szöveges feladatokat, adaptív Lora adapter technológiával, amely lehetővé teszi, hogy ugyanaz a rendszer kiszolgáljon eltérő igényű lekérdezéseket is. A képfeldolgozásra fejlesztett SIGLIP architektúrát alkalmazza, valamint a deep stack megoldással optimalizálja az adatok bejutását a transformer hálózatok mélyebb rétegeibe.
Emellett szó esik egy újszerű chart generáló és tesztelő pipeline-ról is, Chartnet néven, amely képes grafikonokat Python kód segítségével újjáépíteni, így a modell valódi strukturált adatokat, angol nyelvű összefoglalókat, illetve újabb grafikon- és táblázat-variánsokat hoz létre.
A videóban változatos mintafeladatokon keresztül vizsgálják a modellt: grafikon képből táblázat, összefoglalás vagy újragenerált kód készítése, bonyolult, többszintű táblázatok pontos kinyerése gépi olvasási struktúrában (pl. HTML, OTSL formátum), továbbá kulcs-érték párok automatikus felismerése számlákból JSON-ben.
Külön figyelmet kap, hogy a Granite 4.0 3B Vision képes kezelni komplex kutatási dokumentumok táblázatait, olyan szerkezetekkel, amelyekkel sok hasonló modell nem boldogul. Ez felveti a kérdést: hol van jelenleg a határ a mesterséges intelligencia által megérthető és kinyerhető információ számára nagy szakmai pontossággal?










