Az új NuMarkdown egy olyan OCR modell, amely nemcsak a szövegfelismerés, hanem a logikus következtetés terén is fejlett képességeket kínál. A videó bemutatja, hogyan lehet helyileg telepíteni és futtatni ezt a logikai következtetéseket végző OCR VLM modellt, amely a Quen 2.5 VL 7 milliárd paraméteres változatára épül.
A tartalom során különféle összetett és egyedi képeket tesztelnek vele, mint például számlákat több nyelven (angol, arab és más európai nyelvek), régi kéziratokat, emaileket, sőt, jogosítványokat is. A különböző típusú dokumentumok feldolgozása során figyelemre méltó, hogy a modell lépésről lépésre képes értelmezni és strukturáltan visszaadni az információkat.
Külön említést kap a technikai háttér is: a rendszer egy Ubuntu alapú gépen fut, NVIDIA RTX 6000 GPU-val, és demonstrálja, hogyan lehet a mesterséges intelligenciát különböző implementációkkal (például transformers, VL-LM, Gradio felület) tesztelni.
A beállítási és tesztelési folyamat során szó esik a VRAM fogyasztásról, valamint arról, hogy a modell hogyan teljesít nem ideális vagy generált adatok esetén is. Felvetődik a kérdés, hogy vajon ez az új megközelítés megfelel-e napjaink magas OCR elvárásainak, illetve mennyire képes kezelni a valós életben előforduló bonyolult feladatokat.