A DeepSeek bemutatta első saját fejlesztésű OCR modelljét, amely nem csupán a hagyományos karakterfelismerést képes ellátni, hanem összetettebb dokumentumstruktúrákat, táblázatokat, ábrákat is értelmez, valamint vizuális kérdések megválaszolására alkalmas, szövegkinyeréssel egybekötve.
A videóban részletesen ismertetik a telepítési folyamatot, az indulástól a helyi futtatásig, valamint különböző tesztképeken keresztül mutatják be a modellt: hirdetés, LaTeX dokumentum, kézzel írott szöveg, számla, többnyelvű dokumentum és grafikon is előkerül.
Felmerül a kérdés, hogy mennyire tudja egy OCR rendszer nem csak a szöveget, hanem a szöveg elrendezését és kontextusát is visszaadni. Külön érdekesség a „Gundam”-nak elnevezett dinamikus felbontásmód, amely az aprólékos részletek mellett a tágabb összefüggéseket is képes megragadni képeken.
Szó esik a modell architektúrájáról, különösen arról, hogyan egyesíti a hatékony paraméterműködtetést, a látványkódolást, valamint a memóriaterhelés csökkentését az új figyelemmechanizmus révén. Ott a kihívás is: egy ilyen OCR-algoritmus vajon meddig képes elmenni az olvashatatlan vagy többnyelvű dokumentumok feldolgozásában?










