A
A
  • Angol
  • Magyar
  • 8 perc

Meta OmniASR-LLM 7B: Többnyelvű beszédfelismerés egyszerű telepítéssel, CPU-n

Az OmniASR-LLM 7B lényegesen megkönnyíti a többnyelvű beszédfelismerést, akár helyi gépen is futtatható, és számos ritka nyelvet is támogat.

Meta újabb fejlesztésével, az OmniASR-LLM 7B modellel egy olyan nyílt forráskódú automatikus beszédfelismerő rendszert mutat be, amely több mint 1600 nyelvet támogat, beleértve 500 korábban nem transzkribált, erőforráshiányos nyelvet is.

A videó végigvezeti a nézőt az OmniASR helyi, CPU-n történő telepítésén, megmutatva, hogyan lehet egyszerűen integrálni különböző rendszereken, például Ubuntu, Mac vagy Windows környezetben. Az Apache 2 licenc lehetőséget ad arra, hogy a modellt kereskedelmi célokra is felhasználják, vagy akár testre is szabják saját felhasználásra.

Különös hangsúlyt kap a modell könnyű telepíthetősége és kis mérete, illetve hogy egy webes (gradio) interfésszel egyszerűen használhatóvá válik akár valós idejű hangátírásra is.

A tesztelések során különféle nyelveken (angol, lengyel, pandzsábi, indonéz, afrikai) próbálják ki a modellt, felvetve, hogy a soknyelvűség és a kisebb nyelvek támogatása milyen új távlatokat nyit a globális beszédfelismerés és az elérhetőség terén. A videó érdekes kérdéseket vet fel a modellek általánosításáról, az architektúra újdonságairól és a lokális, CPU-alapú működés előnyeiről.