Meta újabb fejlesztésével, az OmniASR-LLM 7B modellel egy olyan nyílt forráskódú automatikus beszédfelismerő rendszert mutat be, amely több mint 1600 nyelvet támogat, beleértve 500 korábban nem transzkribált, erőforráshiányos nyelvet is.
A videó végigvezeti a nézőt az OmniASR helyi, CPU-n történő telepítésén, megmutatva, hogyan lehet egyszerűen integrálni különböző rendszereken, például Ubuntu, Mac vagy Windows környezetben. Az Apache 2 licenc lehetőséget ad arra, hogy a modellt kereskedelmi célokra is felhasználják, vagy akár testre is szabják saját felhasználásra.
Különös hangsúlyt kap a modell könnyű telepíthetősége és kis mérete, illetve hogy egy webes (gradio) interfésszel egyszerűen használhatóvá válik akár valós idejű hangátírásra is.
A tesztelések során különféle nyelveken (angol, lengyel, pandzsábi, indonéz, afrikai) próbálják ki a modellt, felvetve, hogy a soknyelvűség és a kisebb nyelvek támogatása milyen új távlatokat nyit a globális beszédfelismerés és az elérhetőség terén. A videó érdekes kérdéseket vet fel a modellek általánosításáról, az architektúra újdonságairól és a lokális, CPU-alapú működés előnyeiről.









