A
A
  • Angol
  • Magyar
  • 11 perc

Docling és OpenAI Whisper: helyi beszédfelismerés összehasonlítása gyakorlati bemutatón keresztül

A Docling ASR és az OpenAI Whisper API helyi beszédfelismerési képességeit, telepítését és többnyelvű pontosságát vizsgálja a videó egy gyakorlati bemutatón keresztül.

Ebben a bemutatóban két ismert automatikus beszédfelismerő technológiát vetnek össze: a helyben futtatható Docling ASR-t és az OpenAI Whisper API-t. A szerző lépésről lépésre megmutatja, hogyan történik a Docling telepítése és használata Ubuntu rendszeren, kiemelve annak API-független működését.

A Docling nemcsak beszédfelismerésre, hanem átfogó dokumentumfeldolgozásra is alkalmas: támogatja a PDF, Office, HTML, kép- és hangállományokat. A néző betekintést nyerhet abba, hogyan lehet különféle audiófájlokat (például mp3, wav) helyben, internetkapcsolat nélkül átírni szöveggé, akár GPU-t vagy virtuális gépet is használva.

Többnyelvűség is fókuszba kerül: különböző nyelvű hangfájlokat dolgoznak fel, és vizsgálják, mennyire pontosan működik a felismerés például német, portugál, kínai vagy francia esetén. Felmerül a kérdés, mennyire univerzális a rendszer, meddig kitart a virtualizált környezet erőforrása, és kiváltható-e teljesen az online API-alapú beszédfelismerés.

A videó bemutat egy egyszerű kódpéldát is, amely segítségével tömegesen lehet különböző formátumú hangfájlokat feldolgozni, mindezt helyi erőforrások igénybevételével. További témák a valós idejű futás, a hibalehetőségek és az elérhető kimeneti formátumok konvertálása.