Egy új, kompakt, többnyelvű OCR (optikai karakterfelismerő) modellt mutatnak be, amely összesen 0,9 milliárd paraméterrel rendelkezik, és képes dokumentumokat helyben, akár CPU-n is futtatni. A modell központi eleme, hogy egyszerre olvassa a vizuális adatokat, mint például teljes oldallapokat, táblázatokat, diagramokat és képleteket, miközben értelmezi is azokat.
Kiemelt hangsúlyt kap a modell többnyelvűsége: 109 különböző nyelven működik, beleértve európai, ázsiai és más világnyelveket is. A videó kísérletezéssel mutatja be, hogyan boldogul a rendszer különféle írásrendszerekkel és nyelvekkel, miközben megvizsgálja az eredmények minőségét is.
A bemutató közben szó esik a hardverigényekről is, kiemelve, hogy nagy teljesítményű GPU nem feltétlenül szükséges hozzá. Megmutatja, hogyan telepíthető a modell, milyen szoftveres előfeltételei vannak, és milyen gyorsan tud dolgozni különféle példákon keresztül, beleértve számlák, kézzel írt dokumentumok, matematikai képletek és táblázatok felismerését is.
Az egyes nyelveknél és feladatoknál felmerülő pontatlanságokat és hibákat is górcső alá veszi az előadó. Felteszi a kérdést, vajon elfogadható-e a teljesítménye a különböző írásrendszerek esetében, és hogyan viszonyul a modern, nagyobb versenytársakhoz. A videó végig arra fókuszál, hogy milyen mértékben képes megfelelni a felhasználói igényeknek ilyen kicsi modellméret mellett is.