A
A
  • Angol
  • Magyar
  • 19 perc

Az AI hangszintézis és arcanimáció legújabb nyílt forráskódú fejlesztései

A legújabb nyílt forráskódú fejlesztések bemutatják, mennyire közel kerültünk a természetes hang- és arcanimáció generálásához, miközben új kérdéseket vetnek fel a mesterséges intelligencia jövőjéről.

Néhány új, nyílt forráskódú mesterséges intelligencia fejlesztés kerül bemutatásra, amelyek egyre lenyűgözőbb hangszintézist és szájmozgás-szinkront kínálnak. Ezek az innovációk nemcsak a beszéd természetességén javítanak, hanem lehetővé teszik az érzelmek, a tempó és még a színészi játék átadását is, mindezt minimális bemeneti anyag alapján.

Középpontba kerül a Drama Box, amely a hangszín klónozásával és érzelmi modulációval új szintre emeli a szövegből beszédet generáló rendszereket. Mindössze tíz másodperces mintából képes egyedi hangot alkotni, sőt, színpadi utasításokat és hanglejtést is lehet irányítani. Kérdéseket vet fel például a generált hangok felismeréséről és vízjelezéséről is.

Emellett szó esik a Pinocchio nevű telepítőeszközről, amely megkönnyíti ezeknek a nyílt forráskódú alkalmazásoknak a futtatását különböző rendszereken. A beszédszintetizátorok tesztjei során felmerül, hogy miként kezeli a rendszer a hosszabb szövegeket vagy a referenciahang hiányát, és mennyire képes természetes szüneteket, érzelemgazdag megszólalásokat produkálni.

Külön blokkban kerül szóba a LipDub, amely képes videók eredeti szájmozgását új szöveghez igazítani több nyelven, miközben igyekszik megőrizni a karakter eredeti előadását és mimikáját. Ennek fontosságát és technikai kihívásait is részletesen taglalja a videó.

Végül bemutatásra kerül egy újszerű nyelvi modell, a Mercury 2, amely a diffúziós eljárást alkalmazza szövegfeldolgozásban, kihívás elé állítva a jelenlegi LLM-ek működési elvét, gyorsaságával és újfajta működésmódjával kérdéseket vet fel arról, hogy milyen lehetőségek és irányok nyílnak meg az AI fejlesztésében.