A
A
  • Angol
  • Magyar
  • 14 perc

Új távlatok a beszédszintetizálásban: Index TTS2 és az érzelmek világa

Bemutatjuk az Index TTS2 érzelmileg kifejező beszédszintetizátor modellt, a helyi installáció lépéseit, valamint az érzelmek és a beszélő identitásának elkülönítésének újdonságait.

Az Index TTS2 egy új, érzelmileg kifejező beszédszintetizátor modell, amely jelentős előrelépést mutat elődjéhez képest. Az installációs folyamat részletes bemutatása során szó esik a szükséges szoftverekről és eszközökről, valamint arról, hogyan tölthető le és futtatható a modell helyileg, például Ubuntu alatt, NVIDIA RTX 6000 GPU használatával.

Érdekesség, hogy ez a TTS modell képes különválasztani az érzelmi töltetet a beszélő személyazonosságától. A felhasználó egyszerű, szöveges leírás alapján változtathatja a megszólaló hangulatát, miközben az alapvető hangkarakterisztika megmarad. Próbaként különböző érzelmek – például meglepett, megkönnyebbült, félénk, boldog vagy meglepődött – lettek szintetizálva, jól érzékeltetve a platform sokoldalúságát.

A tesztek során többféle hang, valamint különböző nyelvek is kipróbálásra kerülnek, főként az angol és kínai nyelv támogatása mellett. Külön kitér a szerző arra, hogy a hang klónozása rendkívül élethű, és a beszéd kifejezőbbé tehető finomhangolással. Felmerül az a kérdés, milyen további nyelveken tud működni a modell, és mennyire könnyű vele egyedi, személyre szabott beszédet generálni.

További izgalmas pont, hogy a modell nemcsak a hang érzelmi tónusára képes, hanem a beszéd hosszát is pontosan szabályozni lehet. Ezen technológiák jelentősége, valamint az, hogy mennyire lesznek hozzáférhetőek a jövőben, nyitott kérdések maradnak, amelyek mélyebb technikai vizsgálódásra ösztönöznek.