Az új Nanonets-OCR2 3B optikai karakterfelismerő modell számos, valós igényeket kielégítő funkcióval bővült. A fejlesztők többek között lehetővé tették áramlási diagramok, kézzel írt dokumentumok, űrlapok – beleértve rádiógombokat és jelölőnégyzeteket – automatikus feldolgozását.
Kiemelt figyelmet kapott, hogy a rendszer hogyan boldogul különböző típusú dokumentumokkal, például kutatási dolgozatokkal, pénzügyi jelentésekkel, jogi szerződésekkel vagy éppen számlákkal és blokkokkal. A tesztben így sorra kerültek nyomtatott, kézzel írt, illetve összetett vizuális elemeket tartalmazó dokumentumok is.
Az OCR modell értékelésénél külön érdekes, hogy miként végzi a szöveg kinyerését LaTeX formátumú egyenletekből, valamint hogyan képes felismerni vízjeleket, aláírásokat, sőt, többnyelvű szöveget is. A bemutató során elgondolkodtató kérdések is felmerülnek, például mennyire pontos a modell a különböző nyelvek esetén, vagy mik azok a helyzetek, ahol javításra szorulhat az automatikus szövegfelismerés.
A videó összeveti az előző modellhez képest tapasztalt fő fejlesztéseket, és technikai betekintést is ad a helyi futtatásról, GPU-erőforrás-igényről, valamint olyan eszközökről, mint a VLLM vagy az OpenWebUI felhasználhatósága. A bemutató végig gyakorlati példákon keresztül vizsgálja, hol vannak az újdonságok, és mely kihívások maradtak még megoldatlanok az OCR világában.