A
A
  • Angol
  • Magyar
  • 18 perc

A Nanonets-OCR2 3B újításai: Hogyan teljesít valódi dokumentumokon?

Valódi dokumentumokon vizsgálták a legújabb Nanonets-OCR2 3B optikai karakterfelismerő modellt – a teszt izgalmas kérdéseket vet fel a pontosság, a nyelvi sokszínűség és a praktikus alkalmazás kapcsán.

Az új Nanonets-OCR2 3B optikai karakterfelismerő modell számos, valós igényeket kielégítő funkcióval bővült. A fejlesztők többek között lehetővé tették áramlási diagramok, kézzel írt dokumentumok, űrlapok – beleértve rádiógombokat és jelölőnégyzeteket – automatikus feldolgozását.

Kiemelt figyelmet kapott, hogy a rendszer hogyan boldogul különböző típusú dokumentumokkal, például kutatási dolgozatokkal, pénzügyi jelentésekkel, jogi szerződésekkel vagy éppen számlákkal és blokkokkal. A tesztben így sorra kerültek nyomtatott, kézzel írt, illetve összetett vizuális elemeket tartalmazó dokumentumok is.

Az OCR modell értékelésénél külön érdekes, hogy miként végzi a szöveg kinyerését LaTeX formátumú egyenletekből, valamint hogyan képes felismerni vízjeleket, aláírásokat, sőt, többnyelvű szöveget is. A bemutató során elgondolkodtató kérdések is felmerülnek, például mennyire pontos a modell a különböző nyelvek esetén, vagy mik azok a helyzetek, ahol javításra szorulhat az automatikus szövegfelismerés.

A videó összeveti az előző modellhez képest tapasztalt fő fejlesztéseket, és technikai betekintést is ad a helyi futtatásról, GPU-erőforrás-igényről, valamint olyan eszközökről, mint a VLLM vagy az OpenWebUI felhasználhatósága. A bemutató végig gyakorlati példákon keresztül vizsgálja, hol vannak az újdonságok, és mely kihívások maradtak még megoldatlanok az OCR világában.