Új, end-to-end OCR modellt ismerhetünk meg, amely képes képdokumentumokat szerkeszthető, strukturált szöveggé alakítani. Érdekessége, hogy egy lépésben hajtja végre az összes szükséges folyamatot, ellentétben a hagyományos, többlépcsős OCR rendszerekkel. Egyetlen, nagy teljesítményű neurális hálózat végzi a képfeldolgozást és a szövegértést.
A modell architektúrája külön figyelmet érdemel: magas felbontású vision transformer (Mistrol’s Pixrol) és Quen 3-alapú nyelvi modell együttműködése teszi lehetővé a kiemelkedő hatékonyságot és pontosságot. Az egész modell kompakt multimodális rétegen keresztül kapcsolódik, amely teljesen differenciálhatóvá teszi a rendszert.
Az OCR rendszer fejlesztése során szintetikus PDF-adatkészletet használtak, amely strukturáltsága miatt erős elrendezési és szintaktikai tudást biztosít a modell számára. Olyan technikákat is alkalmaztak, mint például a szókincs ritkítása a gyorsaság érdekében, anélkül, hogy pontosság veszne el.
A telepítés és tesztelés során kitérnek az erőforrásigényekre; például a GPU memóriahasználat meglepően magas, ami további vizsgálódásra ösztönöz. Különböző PDF típusokat, többnyelvű és tudományos tartalmakat, számlákat és táblázatokat is kipróbálnak, hogy látható legyen, hogyan birkózik meg a komplex elrendezésekkel és a grafikai elemek felismerésével.
Felmerül a kérdés, hogyan teljesít a modell eltérő nyelveken vagy speciális tartalmakon, mennyire pontos az adatkinyerés, illetve milyen kompromisszumokkal jár a gyorsaság és a memóriahasználat.









