A beszédfelismerő rendszerek egyik legnehezebb problémájára kínál megoldást a Microsoft új fejlesztése, a VibeVoice-ASR. A hagyományos modellek jellemzően csak rövidebb hanganyagokat tudnak feldolgozni, itt viszont akár 60 perces folyamatos felvétel is egyben kezelhető, anélkül, hogy azokat darabokra kellene osztani.
Kiemelkedő újítás, hogy az átiratok nemcsak a szöveget tartalmazzák, hanem a beszélők személyét, a megszólalás időpontját és a beszélgetések szerkezetét is átláthatóvá teszik. Mindeközben zavartalanul követhető, hogy az egyes szereplők mikor szólalnak meg és mit mondanak. Az eszköz gyors működése, valamint a beszélőfelismerés pontossága szintén figyelemre méltó.
A modell működése egy encoder-decoder szerkezetre épül, amely kifejezetten nagy kapacitású, 9 milliárd paraméterrel rendelkezik. További érdekesség, hogy különböző nyelvekkel – például némettel, spanyollal, arabbal, hindivel vagy kínai nyelvvel – is képes dolgozni, noha a többnyelvűség hivatalos dokumentációja nem egyértelmű.
Lehetőség nyílik személyre szabott szókészlet, úgynevezett „hot word” megadására is, amely különösen hasznos, ha egy-egy nevet, szakszavakat vagy rövidítéseket szeretnénk előnyben részesíteni az átiratban. A funkcionalitás bemutatása során változatos nyelvi mintákkal és különböző tartalmak – például dalrészletek vagy videóátiratok – is kipróbálták a rendszert.








