Az új Microsoft VibeVoice modell segítségével bárki képes lehet hosszú, természetes hangzású, több résztvevős audioanyagokat – például podcastokat – generálni, akár helyben, saját eszközön is. Egy modern TTS (Text-to-Speech) rendszerhez képest a VibeVoice különleges hangtokenizálási és beszélőazonosítási fejlesztéseket valósít meg. A beszéd generálásához ultraalacsony frekvenciájú folyamatos beszédtokenizálást és integrált szöveg-szkript támogatást használ, hogy megőrizze a hanghűséget és az egyes szereplők hangjának konzisztenciáját, akkor is, ha akár 90 perces anyagot állítunk elő.
A videóban részletes technikai bemutatót láthatunk az Ubuntu rendszeren történő telepítésről és a Docker-környezet előnyeiről. A bemutató során egy Nvidia RTX A6000 GPU-n keresztül futtatják a VibeVoice VIP modellt, miközben kitérnek a VRAM-fogyasztásra, a dokkolás lépéseire és a modellek jövőbeli bővítési lehetőségeire.
Különféle példákon keresztül derül ki, hogy milyen könnyedén generál hosszabb párbeszédeket több szereplővel, sőt akár négy karakterrel is képes szimulálni a társalgást. Foglalkoznak a hangsúlyozás, a szünetek, valamint az érzelemkifejezés kérdésével: vajon tényleg át tudja-e adni az AI az emberi beszéd árnyaltságait, vagy inkább csak az alapérzelmek érzékelhetőek?
Érdekességként felmerül, hogy mennyire képesek ezek a modellek különböző nyelveken megőrizni a természetes hatást – kiderül például, hogy jelenleg főleg az angol és a mandarin nyelvekre specializálódott a rendszer. A szponzorációs blokkban szó esik az Agent alkalmazásról is, amely új megközelítéssel próbálja meg automatizálni a munkafolyamatokat AI segítségével. Végül a videó betekintést enged a további terjeszkedésre és fejlesztésekre is.