A
A
  • Angol
  • Magyar
  • 10 perc

LightonOCR: Forradalmi egyszerűség és hatékonyság az új OCR modellben

A LightonOCR egy új, end-to-end OCR modell, amely gyorsaságával, hatékonyságával és egyszerű telepítésével, valamint magas strukturális pontosságával tűnik ki. A videóban a helyi futtatás és tesztelés lépései, valamint a modell érdekességei kerülnek előtérbe.

Új, end-to-end OCR modellt ismerhetünk meg, amely képes képdokumentumokat szerkeszthető, strukturált szöveggé alakítani. Érdekessége, hogy egy lépésben hajtja végre az összes szükséges folyamatot, ellentétben a hagyományos, többlépcsős OCR rendszerekkel. Egyetlen, nagy teljesítményű neurális hálózat végzi a képfeldolgozást és a szövegértést.

A modell architektúrája külön figyelmet érdemel: magas felbontású vision transformer (Mistrol’s Pixrol) és Quen 3-alapú nyelvi modell együttműködése teszi lehetővé a kiemelkedő hatékonyságot és pontosságot. Az egész modell kompakt multimodális rétegen keresztül kapcsolódik, amely teljesen differenciálhatóvá teszi a rendszert.

Az OCR rendszer fejlesztése során szintetikus PDF-adatkészletet használtak, amely strukturáltsága miatt erős elrendezési és szintaktikai tudást biztosít a modell számára. Olyan technikákat is alkalmaztak, mint például a szókincs ritkítása a gyorsaság érdekében, anélkül, hogy pontosság veszne el.

A telepítés és tesztelés során kitérnek az erőforrásigényekre; például a GPU memóriahasználat meglepően magas, ami további vizsgálódásra ösztönöz. Különböző PDF típusokat, többnyelvű és tudományos tartalmakat, számlákat és táblázatokat is kipróbálnak, hogy látható legyen, hogyan birkózik meg a komplex elrendezésekkel és a grafikai elemek felismerésével.

Felmerül a kérdés, hogyan teljesít a modell eltérő nyelveken vagy speciális tartalmakon, mennyire pontos az adatkinyerés, illetve milyen kompromisszumokkal jár a gyorsaság és a memóriahasználat.