A
A
  • Angol
  • Magyar
  • 12 perc

Szkennelt PDF-ből kereshető dokumentum: egyszerű útmutató a Tesseract OCR használatához

Rövid, gyakorlati útmutató arról, hogyan lehet ingyenes eszközökkel szkennelt vagy képalapú PDF-ekből kereshető dokumentumokat készíteni több nyelven is.

A Faz Bza bemutat egy ingyenes és nyílt forráskódú parancssoros eszközt, amellyel szkennelt vagy képalapú PDF-eket lehet kereshetővé tenni optikai karakterfelismeréssel (OCR technológiával). Az ismertető részletesen kitér arra, hogyan lehet a programot egyszerűen telepíteni különböző operációs rendszereken, és miként működik a parancssorban.

Az eszköz a Tesseract OCR motorját használja, amely gépi tanulással ismeri fel a szöveget a képekből. A nézők betekintést nyernek abba, hogyan lehet többnyelvű PDF-eket feldolgozni, sőt, az alkalmazás képes egyszerre több nyelven is karakterfelismerésre. Olyan feladatok is bemutatásra kerülnek, mint a ferdén beszkennelt oldalak javítása, PDF metaadatok hozzáadása (például cím) vagy párhuzamos feldolgozás a gyorsabb teljesítményért.

Különféle példákon keresztül ismerhetjük meg az eszköz alkalmazását egyszerű és összetettebb PDF-ek esetén is, ahol képek, táblázatok vagy többféle formázás fordul elő. Felhívja a figyelmet arra is, hogy hosszú dokumentumokat vagy hatalmas fájlokat is könnyedén kezel. Szó esik a különleges karakterkészleteket igénylő nyelvek támogatásáról is, amelyhez megfelelő betűtípusok és nyelvi támogatás telepítése szükséges.