A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 13 perc

Új szövegből beszédre modell a Hume AI-tól: természetesebb hangzás kevesebb erőforrással

A Hume AI által fejlesztett TADA újragondolja, hogyan kapcsolódik a szöveg és a hang egy beszédmodellen belül, és egyedi megközelítéssel törekszik természetesebb beszéd generálására.

A szöveg a TADA nevű, nyílt forráskódú TTS (szövegből beszéd) modellt mutatja be, amelyet a Hume AI fejlesztett. A legtöbb jelenlegi TTS megoldás alapvető hiányosságaira, például a szöveg és a hang elválasztottságára, a természetellenes kiejtésre és az időzítési problémákra hívja fel a figyelmet. Ebben a modellben egyedi, token-alapú illesztéssel próbálják áthidalni ezeket a problémákat, létrehozva egy természetesebb, szinkronizált beszédet kevesebb erőforrás-felhasználással.

Bemutatásra kerül a modell telepítése Ubuntu rendszeren, valamint a technikai háttér: hogyan kezeli a modell az egyes szövegtokenek és hangvektorok közötti kapcsolatot. A fejlesztő szerint ez a megoldás megszünteti a hagyományos TTS rendszerekben gyakran előforduló „hallucinációkat” és a merev időkeretet.

A videó gyakorlati példákat is mutat, ahol különböző nyelveken és hangmintákkal ismertetik, hogyan használható a TADA, miként lehet saját hangot betölteni és különféle érzelmi árnyalatokat beállítani. Kitérnek a modell VRAM igényére is, és arra, hogy milyen részletesen szabhatók a paraméterek: például a hanghűség, időzítés, természetesség vagy variációk szintje.

Felmerülnek kérdések arról, hogy mennyire hatékony a hangklónozás, hogyan érzékeli az érzelmeket, vagy mit jelent az újfajta token illesztés a gyakorlati használat során. A videó külön hangsúlyt fektet arra is, hogy a fejlettebb modellekkel, például a Wipe Voice Index vagy Fire Red TDS-hez képest milyen eredményeket ér el a TADA.