A
A
  • Angol
  • Magyar
  • 12 perc

DeepSeek OCR Gundam módban: a jövő dokumentumfeldolgozása

Egy úttörő OCR modellt próbálhatunk ki helyileg, amely bonyolult dokumentumokat, grafikonokat és több nyelvet is kezel, miközben a dokumentumok szerkezetének megőrzésére törekszik.

A DeepSeek bemutatta első saját fejlesztésű OCR modelljét, amely nem csupán a hagyományos karakterfelismerést képes ellátni, hanem összetettebb dokumentumstruktúrákat, táblázatokat, ábrákat is értelmez, valamint vizuális kérdések megválaszolására alkalmas, szövegkinyeréssel egybekötve.

A videóban részletesen ismertetik a telepítési folyamatot, az indulástól a helyi futtatásig, valamint különböző tesztképeken keresztül mutatják be a modellt: hirdetés, LaTeX dokumentum, kézzel írott szöveg, számla, többnyelvű dokumentum és grafikon is előkerül.

Felmerül a kérdés, hogy mennyire tudja egy OCR rendszer nem csak a szöveget, hanem a szöveg elrendezését és kontextusát is visszaadni. Külön érdekesség a „Gundam”-nak elnevezett dinamikus felbontásmód, amely az aprólékos részletek mellett a tágabb összefüggéseket is képes megragadni képeken.

Szó esik a modell architektúrájáról, különösen arról, hogyan egyesíti a hatékony paraméterműködtetést, a látványkódolást, valamint a memóriaterhelés csökkentését az új figyelemmechanizmus révén. Ott a kihívás is: egy ilyen OCR-algoritmus vajon meddig képes elmenni az olvashatatlan vagy többnyelvű dokumentumok feldolgozásában?