Az OCR, vagyis az optikai karakterfelismerés fejlődése évről évre nagy ugrásokat tesz, és most egy új megoldás jelent meg a piacon: a Baidu Unlimited OCR rendszere. Eddig a legtöbb hasonló szoftver komoly teljesítményproblémákkal küzdött, amikor hosszabb dokumentumokat kellett feldolgozniuk, mivel minden újabb szöveggel exponenciálisan nőtt a memóriaigény. Ez az architekturális korlát jelentős akadályt gördített az egyre komplexebb felhasználási esetek elé.
A Baidu Unlimited OCR alapjaiban változtatja meg a dokumentum-feldolgozás módját: képes egész könyveket, hosszú tudományos dolgozatokat egy menetben, állandó sebességgel és memóriával feldolgozni. Mindezt úgy éri el, hogy nem csak a szöveget olvassa, hanem a dokumentumok szerkezetét—diagramokat, táblázatokat, egyenleteket—is precízen felismeri, pozíciókat és elemtípusokat is meghatározva. Az új architektúrában két fő komponens dolgozik össze: egy mély encoder, amely drasztikusan tömöríti a képeket vizuális tokenekké, valamint egy figyelmi mechanizmus, ami csak az utolsó néhány tokenre koncentrál, minimalizálva ezzel a memóriahasználatot.
Fontos újítás továbbá, hogy a feldolgozás során élőben követhető a GPU memóriaterhelése, a rendszer több platformon is futtatható, például Gradio felületen keresztül vagy API-n át. A tesztek között szerepel kézzel írott dokumentum, valamint többnyelvű szöveg is, ahol külön kérdésként merül fel, hogy milyen pontossággal birkózik meg az OCR rendszer különféle nyelvekkel és karakterkészletekkel. Egy másik izgalmas vizsgálati szempont, hogy valóban pontosan kezeli-e a bonyolult, akadémiai formázást, matematikai egyenleteket és összetett táblázatokat.
A fejlesztés nyílt forráskódú, mindenki számára elérhető, és a licenc is rendkívül megengedő. A bemutató során az is kiemelt téma, hogy milyen lehetőségeket rejt magában az automatizált dokumentumfeldolgozás, és mennyire versenyképes az új modell a meglévő megoldások mellett, főként hosszabb szövegeknél.










