A Faz Bza bemutat egy ingyenes és nyílt forráskódú parancssoros eszközt, amellyel szkennelt vagy képalapú PDF-eket lehet kereshetővé tenni optikai karakterfelismeréssel (OCR technológiával). Az ismertető részletesen kitér arra, hogyan lehet a programot egyszerűen telepíteni különböző operációs rendszereken, és miként működik a parancssorban.
Az eszköz a Tesseract OCR motorját használja, amely gépi tanulással ismeri fel a szöveget a képekből. A nézők betekintést nyernek abba, hogyan lehet többnyelvű PDF-eket feldolgozni, sőt, az alkalmazás képes egyszerre több nyelven is karakterfelismerésre. Olyan feladatok is bemutatásra kerülnek, mint a ferdén beszkennelt oldalak javítása, PDF metaadatok hozzáadása (például cím) vagy párhuzamos feldolgozás a gyorsabb teljesítményért.
Különféle példákon keresztül ismerhetjük meg az eszköz alkalmazását egyszerű és összetettebb PDF-ek esetén is, ahol képek, táblázatok vagy többféle formázás fordul elő. Felhívja a figyelmet arra is, hogy hosszú dokumentumokat vagy hatalmas fájlokat is könnyedén kezel. Szó esik a különleges karakterkészleteket igénylő nyelvek támogatásáról is, amelyhez megfelelő betűtípusok és nyelvi támogatás telepítése szükséges.