A
A
  • Angol
  • Magyar
  • 9 perc

NuMarkdown: Fejlett OCR modell telepítése és tesztelése helyi környezetben

Bemutatjuk a NuMarkdown fejlett OCR modellt, amely rendelkezik logikus gondolkodási képességekkel, és különféle dokumentumokon teszteljük a helyi telepítéstől a működésig.

Az új NuMarkdown egy olyan OCR modell, amely nemcsak a szövegfelismerés, hanem a logikus következtetés terén is fejlett képességeket kínál. A videó bemutatja, hogyan lehet helyileg telepíteni és futtatni ezt a logikai következtetéseket végző OCR VLM modellt, amely a Quen 2.5 VL 7 milliárd paraméteres változatára épül.

A tartalom során különféle összetett és egyedi képeket tesztelnek vele, mint például számlákat több nyelven (angol, arab és más európai nyelvek), régi kéziratokat, emaileket, sőt, jogosítványokat is. A különböző típusú dokumentumok feldolgozása során figyelemre méltó, hogy a modell lépésről lépésre képes értelmezni és strukturáltan visszaadni az információkat.

Külön említést kap a technikai háttér is: a rendszer egy Ubuntu alapú gépen fut, NVIDIA RTX 6000 GPU-val, és demonstrálja, hogyan lehet a mesterséges intelligenciát különböző implementációkkal (például transformers, VL-LM, Gradio felület) tesztelni.

A beállítási és tesztelési folyamat során szó esik a VRAM fogyasztásról, valamint arról, hogy a modell hogyan teljesít nem ideális vagy generált adatok esetén is. Felvetődik a kérdés, hogy vajon ez az új megközelítés megfelel-e napjaink magas OCR elvárásainak, illetve mennyire képes kezelni a valós életben előforduló bonyolult feladatokat.