Az end-to-end OCR megoldások világában egy új modell jelent meg, amely a dokumentumok intelligens feldolgozására képes. A Qianfan-OCR egy komplex, 4 milliárd paraméterrel rendelkező rendszer, amely képes a teljes OCR-folyamatot lokalizált környezetben elvégezni.
A bemutató során szó esik arról, hogy ez a modell jelentősen egyszerűsíti az eddig többlépcsős felismerési láncokat. Felváltja a különálló layout-elemző, szövegfelismerő és nyelvi modelleket egyetlen egységes rendszerré, amely közvetlenül képes strukturált formátumokat – például JSON-t, HTML-t vagy Markdownt – generálni.
Érdekességként kiemelik a „layout as thought” eljárást, ahol a modell explicit módon képes meghatározni az elemek típusát, helyét és olvasási sorrendjét, mielőtt az eredményt előállítaná. Ez a megközelítés segít az összetett, szabálytalan elrendezésű dokumentumok (például régi újságok vagy kézzel írott egyenletek) pontos feldolgozásában.
Gyakorlati példák során többféle dokumentumot vetnek alá tesztnek, mint például kézzel írott fizikai egyenlet, űrlap és történelmi újságoldal. Ezek alapján felmerül a kérdés, hogy az egységes OCR modellek mennyire képesek kezelni a valós világban felmerülő, sokszor strukturálatlan vagy hibás forrásokat, illetve hogyan befolyásolja a layout-elemzés a szöveghűséget és az információk teljességét.










