Egy új, továbbfejlesztett multimodális modellt tesztelnek helyben, amelyet a Microsoft fejlesztett, és amely különösen a szöveggel sűrűn telerakott képek megértésére lett tervezve.
A rendszer nem csupán a szöveg leírására alkalmas, hanem képes a szövegrészek lokalizálására és szerkezetük megtartására is, például megőrzi a tabulátorokat, stílusokat, táblázatokat Markdown formátumban.
Felmerül a kérdés, hogy ez a modell valóban átfogó újdonságokat hozott-e az előző verzióhoz képest, vagy csak a megszokott OCR képességeket ötvözi egy új csomagolásban. Külön figyelmet fordítanak arra, hogy mennyire boldogul bonyolult, régi újságok szövegének feldolgozásával, valamint a többnyelvű szövegekkel.
A teszt során az is vizsgálat tárgyát képezi, mennyire képes megküzdeni a táblázatos adatokkal, például számlákkal vagy struktúrált információkkal. Érdekes kérdésként merül fel, hogy a benchmark-eredmények mennyiben tükrözik a modell valós teljesítményét hétköznapi felhasználásban.