Az utóbbi időben az AI területén nagy figyelmet kaptak bizonyos fejlesztők, de időközben az Nvidia is kiadta a NeMo Trove OCR modelljének legújabb, v2-es verzióját. A videó bemutatja, hogyan lehet ezt a többnyelvű szövegfelismerő modellt feltelepíteni és kipróbálni saját gépen, akár csak CPU-n futtatva.
A modell öt nyelven – angol, kínai, japán, koreai és orosz – képes képekről olvasni szöveget, mindezt egyetlen integrált rendszerben. A bemutatott folyamat során külön figyelmet kap a rendszer architektúrája: három egység működését mutatja be, a szövegfelismeréstől a dokumentum szerkezetének feltárásáig.
Külön érdekesség, hogy a fejlesztés során 12 millió szintetikus képen tanították a modellt, így nagyon pontos címkézést képes elérni, akár szó-, sor-, vagy bekezdésszinten, teljesen automatikusan. A videó során több valós példán keresztül vizsgálja a rendszer képességeit: többnyelvű minták, régi orosz nyelvű újságrészletek, strukturált számlák és kézzel írt szövegek is előkerülnek.
A tesztelés során különböző típusú beviteli módokat és kimeneti formátumokat is kipróbál a készítő, például dokumentumszerkezetet visszaadó vagy csak szavakat felismerő üzemmódokat. A modell teljesítményét változatos, nehezített körülmények között is bemutatja, felvetve a kérdést, vajon mennyire alkalmazható a technológia kézírásos minta vagy régi, díszített betűtípus esetén.









