A
A
  • Angol
  • Magyar
  • 10 perc

Microsoft VibeVoice-ASR: hosszú hanganyagok egyszerű átirata több nyelven

A Microsoft új, nagy teljesítményű beszédfelismerő modellje akár egyetlen menetben képes több nyelven is hosszú hangfelvételekből átlátható, szerkesztett átiratot készíteni, részletes beszélőazonosítással.

A beszédfelismerő rendszerek egyik legnehezebb problémájára kínál megoldást a Microsoft új fejlesztése, a VibeVoice-ASR. A hagyományos modellek jellemzően csak rövidebb hanganyagokat tudnak feldolgozni, itt viszont akár 60 perces folyamatos felvétel is egyben kezelhető, anélkül, hogy azokat darabokra kellene osztani.

Kiemelkedő újítás, hogy az átiratok nemcsak a szöveget tartalmazzák, hanem a beszélők személyét, a megszólalás időpontját és a beszélgetések szerkezetét is átláthatóvá teszik. Mindeközben zavartalanul követhető, hogy az egyes szereplők mikor szólalnak meg és mit mondanak. Az eszköz gyors működése, valamint a beszélőfelismerés pontossága szintén figyelemre méltó.

A modell működése egy encoder-decoder szerkezetre épül, amely kifejezetten nagy kapacitású, 9 milliárd paraméterrel rendelkezik. További érdekesség, hogy különböző nyelvekkel – például némettel, spanyollal, arabbal, hindivel vagy kínai nyelvvel – is képes dolgozni, noha a többnyelvűség hivatalos dokumentációja nem egyértelmű.

Lehetőség nyílik személyre szabott szókészlet, úgynevezett „hot word” megadására is, amely különösen hasznos, ha egy-egy nevet, szakszavakat vagy rövidítéseket szeretnénk előnyben részesíteni az átiratban. A funkcionalitás bemutatása során változatos nyelvi mintákkal és különböző tartalmak – például dalrészletek vagy videóátiratok – is kipróbálták a rendszert.