A
A
  • Angol
  • Magyar
  • 11 perc

Nvidia NeMo Trove v2: gyors, többnyelvű OCR modell CPU-ra optimalizálva

A videóban egy új, gyors, többnyelvű OCR modellt mutatnak be, amely öt nyelven képes szöveget olvasni képekről, és CPU-n is hatékonyan futtatható.

Az utóbbi időben az AI területén nagy figyelmet kaptak bizonyos fejlesztők, de időközben az Nvidia is kiadta a NeMo Trove OCR modelljének legújabb, v2-es verzióját. A videó bemutatja, hogyan lehet ezt a többnyelvű szövegfelismerő modellt feltelepíteni és kipróbálni saját gépen, akár csak CPU-n futtatva.

A modell öt nyelven – angol, kínai, japán, koreai és orosz – képes képekről olvasni szöveget, mindezt egyetlen integrált rendszerben. A bemutatott folyamat során külön figyelmet kap a rendszer architektúrája: három egység működését mutatja be, a szövegfelismeréstől a dokumentum szerkezetének feltárásáig.

Külön érdekesség, hogy a fejlesztés során 12 millió szintetikus képen tanították a modellt, így nagyon pontos címkézést képes elérni, akár szó-, sor-, vagy bekezdésszinten, teljesen automatikusan. A videó során több valós példán keresztül vizsgálja a rendszer képességeit: többnyelvű minták, régi orosz nyelvű újságrészletek, strukturált számlák és kézzel írt szövegek is előkerülnek.

A tesztelés során különböző típusú beviteli módokat és kimeneti formátumokat is kipróbál a készítő, például dokumentumszerkezetet visszaadó vagy csak szavakat felismerő üzemmódokat. A modell teljesítményét változatos, nehezített körülmények között is bemutatja, felvetve a kérdést, vajon mennyire alkalmazható a technológia kézírásos minta vagy régi, díszített betűtípus esetén.