Az új MisoTTS, egy 8 milliárd paraméteres hangmodellező rendszer, kerül bemutatásra ebben a videóban, amely azt ígéri, hogy a világ legérzelemgazdagabb TTS (szöveg-beszéd) modellje.
A telepítés és futtatás lépésein keresztül betekintést nyerhetünk a rendszer hardverigényeibe: a fejlesztő például egy Nvidia RTX A6000 GPU-t használ, amely jelentős VRAM-ot igényel. Felmerül a kérdés, hogy mennyire teszi ez elérhetővé az átlagfelhasználók számára az ilyen szintű hanggenerálást.
Az architektúra kettős transzformátor dizájnra épül: egy nagy Llama-alapú háttérrendszerre és egy kisebb dekóderre, amely magasabb rendű audiokodekeket kezel. Mennyire képes ez a rendszer természetes, érzelemdús beszédet generálni? Ennek feltérképezése érdekében különféle párbeszédhelyzeteket és érzelemgazdag jeleneteket próbálnak ki.
A videó központi kérdése, hogy valóban világelső-e érzelemkifejezésben ez a TTS modell, miközben szó esik prosódiai hibákról, természetességről és konzisztenciáról is a generált hangok terén.









