A
A
  • Angol
  • Magyar
  • 15 perc

Microsoft VibeVoice: természetes hangzású podcastok generálása egyszerűen

A Microsoft VibeVoice korszakalkotó TTS modellje többszereplős, természetes podcastok helyi generálását teszi lehetővé, akár egy átlagos GPU segítségével is.

Az új Microsoft VibeVoice modell segítségével bárki képes lehet hosszú, természetes hangzású, több résztvevős audioanyagokat – például podcastokat – generálni, akár helyben, saját eszközön is. Egy modern TTS (Text-to-Speech) rendszerhez képest a VibeVoice különleges hangtokenizálási és beszélőazonosítási fejlesztéseket valósít meg. A beszéd generálásához ultraalacsony frekvenciájú folyamatos beszédtokenizálást és integrált szöveg-szkript támogatást használ, hogy megőrizze a hanghűséget és az egyes szereplők hangjának konzisztenciáját, akkor is, ha akár 90 perces anyagot állítunk elő.

A videóban részletes technikai bemutatót láthatunk az Ubuntu rendszeren történő telepítésről és a Docker-környezet előnyeiről. A bemutató során egy Nvidia RTX A6000 GPU-n keresztül futtatják a VibeVoice VIP modellt, miközben kitérnek a VRAM-fogyasztásra, a dokkolás lépéseire és a modellek jövőbeli bővítési lehetőségeire.

Különféle példákon keresztül derül ki, hogy milyen könnyedén generál hosszabb párbeszédeket több szereplővel, sőt akár négy karakterrel is képes szimulálni a társalgást. Foglalkoznak a hangsúlyozás, a szünetek, valamint az érzelemkifejezés kérdésével: vajon tényleg át tudja-e adni az AI az emberi beszéd árnyaltságait, vagy inkább csak az alapérzelmek érzékelhetőek?

Érdekességként felmerül, hogy mennyire képesek ezek a modellek különböző nyelveken megőrizni a természetes hatást – kiderül például, hogy jelenleg főleg az angol és a mandarin nyelvekre specializálódott a rendszer. A szponzorációs blokkban szó esik az Agent alkalmazásról is, amely új megközelítéssel próbálja meg automatizálni a munkafolyamatokat AI segítségével. Végül a videó betekintést enged a további terjeszkedésre és fejlesztésekre is.