A
A
  • Angol
  • Magyar
  • 14 perc

Mistrol Vaurol: Az új beszédfelismerő modell helyi tesztje és bemutatója

A Mistrol legújabb, nyílt forráskódú beszédfelismerő modellje kerül tesztelésre különböző nyelveken és helyi gépen, kiemelve a fejlett funkcionalitást és a hardverigényeket.

Az újonnan bemutatott Vaurol modellt, a Mistrol legfrissebb, nyílt forráskódú hangfelismerő megoldását mutatja be a videó. A fejlesztés két különböző verzióban érhető el: egy 24 milliárd és egy 3 milliárd paraméteres változatot kínál, melyeket eltérő felhasználási környezetekhez terveztek.

A videós teszt során a bemutatóban részletesen kitérnek arra, miként telepíthető helyileg a könnyebb, 3 milliárd paraméterű változat. Bemutatják, hogyan működik a lokális környezetben, VM és GPU (Nvidia RTX A6000) használatával, és milyen hardver- és tárhelyigényekkel rendelkezik.

Kiemelt témák között szerepel a modell széleskörű funkcionalitása: a hagyományos átiraton túl képes hosszú hanganyagok feldolgozására, automatikus nyelvfelismerésre, többnyelvű átiratra, kérdés-válasz (QnA) feladatokra és összegzések készítésére. Felmerülnek kérdések a minőség, a többnyelvűség, illetve a funkcióhívások hangutasításokból való végrehajthatósága kapcsán.

A bemutatóban nemcsak az átirat-képességeket, hanem további nyelvi és elemző feladatokat is próbára tesznek különböző példákon keresztül, érintve olyan nyelveket, mint a spanyol, francia, portugál, német, olasz, hindi és részben arab. A videó a VM teljesítményigényét és a modell valós idejű használatát is bemutatja.