Az új Cinema Audio modell bemutatása során egy eddig példa nélküli, mesterséges intelligencia által vezérelt hanggenerátort ismerhetünk meg, amely képes a szöveget érzelemgazdag, élethű hanggá alakítani. Különleges képessége, hogy a beszéddinamikát – dühöt, szomorúságot, örömöt – egyetlen hangmintában is precízen átadja, a szövegbe helyezett akciócímkék (rendezői instrukciók) segítségével.
Kiderül, hogy a modell a LTX 2.3 22 milliárd paraméteres audio-vizuális modelljéből származik, és kifejezetten filmzenei jelenetek alapján tanult. Ez a rendszer öt különálló, egymás után működő specializált modellt fog össze, amelyek egymást támogatják a minél hitelesebb eredmény érdekében.
Ismertetésre kerül a technikai telepítés is: a helyi gépre Docker segítségével telepítik a Cinema Audiot, kihasználva egy Nvidia RTX 6000-es GPU 48 GB VRAM-ját a pontos, teljes modell futtatásához. Emellett szó esik a Gemma 3 12B nyelvi modell szerepéről és arról, miként használhatók különböző pontossági szintek kisebb memóriakapacitás esetén.
A videó látványos demókkal mutatja be, hogy a hangmodell miként boldogul férfi vagy női, különféle életkorú személyek, valamint számos nyelv – például angol, arab, lengyel, francia, német, hindi, japán, orosz, thai, portugál, svéd és kínai – megszólaltatásával, sőt, még helyi dialektusokkal és hangklónokkal is. A különféle jelenetek (például parkban, hálószobában vagy tengerparton) és érzelmi szituációk mind vizsgálatra kerülnek.
Érdekes kérdések merülnek fel: mennyire hitelesek az érzelmek egyes nyelveken, hogyan kezeli a modell a hosszú szövegeket, az idegen nyelvi vagy tájszólásbeli árnyalatokat, és milyen kihívásokba ütközik a háttérzajok és zenei effektek szétválasztásakor. A nézők aktív visszajelzését kérik a különböző demók értékeléséhez.









