Az OLM OCR 2 7B nyílt forráskódú modell új generációját ismerhetjük meg ebben a videóban, amelyet a Len Institute for Artificial Intelligence (AI2) fejlesztett ki. Részletesen bemutatják, hogyan képes a modell PDF-ek és dokumentumképek szerkezetét és tartalmát precízen szöveges vagy markdown formátumba átalakítani, többek között táblázatokat, képleteket és diagramokat is felismerve.
A működés során felmerülő kihívások – például a dokumentumok többoszlopos elrendezése, kézzel írt szövegek vagy kép-artifaktumok – mind terítékre kerülnek. Felvetik a kérdést, miként képes egy jelenleg elérhető OCR megoldás ezeknek a komplex kihívásoknak megfelelni, mennyire életszerű, hogy egy ilyen rendszer kutatási cikkeket, jogi iratokat vagy számlákat is pontosan értelmezzen.
Megtudhatjuk, hogy a bemutatott OCR modell nagy mennyiségű, különféle forrásokból származó dokumentumon lett finomhangolva, így produkciós szintű teljesítmény várható tőle. Vizsgálják, hogyan boldogul különböző bemeneti formátumokkal – például hosszabb PDF-ekkel, akadémiai cikkekkel, képekkel vagy éppen számlákkal –, és hogy az eredmények átalakíthatók-e további feldolgozásra alkalmas, strukturált adathalmazzá.
A videó kitér arra is, hogy a modell lokálisan, saját gépen futtatható, akár CPU-n is, valamint bemutatja a telepítés lépéseit és a szükséges eszközöket. Érdekes kérdéseket vet fel az OCR szoftverek aktuális fejlődésével és jövőjével kapcsolatban is, említve más, közelmúltban megjelent versenytársakat és a folyamatos innovációt a területen.