Néhány új, nyílt forráskódú mesterséges intelligencia fejlesztés kerül bemutatásra, amelyek egyre lenyűgözőbb hangszintézist és szájmozgás-szinkront kínálnak. Ezek az innovációk nemcsak a beszéd természetességén javítanak, hanem lehetővé teszik az érzelmek, a tempó és még a színészi játék átadását is, mindezt minimális bemeneti anyag alapján.
Középpontba kerül a Drama Box, amely a hangszín klónozásával és érzelmi modulációval új szintre emeli a szövegből beszédet generáló rendszereket. Mindössze tíz másodperces mintából képes egyedi hangot alkotni, sőt, színpadi utasításokat és hanglejtést is lehet irányítani. Kérdéseket vet fel például a generált hangok felismeréséről és vízjelezéséről is.
Emellett szó esik a Pinocchio nevű telepítőeszközről, amely megkönnyíti ezeknek a nyílt forráskódú alkalmazásoknak a futtatását különböző rendszereken. A beszédszintetizátorok tesztjei során felmerül, hogy miként kezeli a rendszer a hosszabb szövegeket vagy a referenciahang hiányát, és mennyire képes természetes szüneteket, érzelemgazdag megszólalásokat produkálni.
Külön blokkban kerül szóba a LipDub, amely képes videók eredeti szájmozgását új szöveghez igazítani több nyelven, miközben igyekszik megőrizni a karakter eredeti előadását és mimikáját. Ennek fontosságát és technikai kihívásait is részletesen taglalja a videó.
Végül bemutatásra kerül egy újszerű nyelvi modell, a Mercury 2, amely a diffúziós eljárást alkalmazza szövegfeldolgozásban, kihívás elé állítva a jelenlegi LLM-ek működési elvét, gyorsaságával és újfajta működésmódjával kérdéseket vet fel arról, hogy milyen lehetőségek és irányok nyílnak meg az AI fejlesztésében.










