A
A
  • Angol
  • Magyar
  • 12 perc

Valósághű hangklónozás és érzelemgazdag TTS a VoxCPM modellel

Az Open BMBB új VoxCPM beszédszintetizátor modelljét próbálják ki helyben, rámutatva a technológia hangklónozási képességeire, érzelem-visszaadására és nyelvi lehetőségeire.

Különleges szöveg–beszéd (TTS) modellt próbálhatunk ki, amely lokálisan is telepíthető, még kisebb gépigény mellett is. Az Open BMBB VoxCPM modellje nem hagyományos, hanem diszkrét tokenek nélküli, end-to-end diffúziós megközelítéssel alakítja át a szöveget hanggá.

Érdekes kérdésként merül fel, hogy valóban mennyire élethű a hanggenerálás, illetve mennyire pontosan képes klónozni egy adott hangot pusztán egy rövid minta alapján. Tesztelik, milyen érzelmi gazdagságot tud visszaadni, és hol vannak a modell korlátai a természetes beszéd árnyalatainak megjelenítésében.

Különböző nyelvi beállításokkal (angol, kínai, spanyol, arab) is próbára teszik, hogy hány nyelven működik jól a technológia, vagy mutat-e tipikus „hangszínezést”. A teljesítményt CPU-n, illetve GPU-val is elemzik, végül pedig a lehetséges felhasználási területek is felmerülnek a valósághű hangklónozás és dinamikus beszédszintézis világában.