Új érzelemgazdag hanggeneráló mesterséges intelligencia bemutatása ✦ UMA

A videó egy új, realisztikus érzelmi hanggeneráló mesterséges intelligencia modellt mutat be, amely már számos nyelven és szituációban képes természetes, árnyalt beszédet előállítani.

Az új Cinema Audio modell bemutatása során egy eddig példa nélküli, mesterséges intelligencia által vezérelt hanggenerátort ismerhetünk meg, amely képes a szöveget érzelemgazdag, élethű hanggá alakítani. Különleges képessége, hogy a beszéddinamikát – dühöt, szomorúságot, örömöt – egyetlen hangmintában is precízen átadja, a szövegbe helyezett akciócímkék (rendezői instrukciók) segítségével.

Kiderül, hogy a modell a LTX 2.3 22 milliárd paraméteres audio-vizuális modelljéből származik, és kifejezetten filmzenei jelenetek alapján tanult. Ez a rendszer öt különálló, egymás után működő specializált modellt fog össze, amelyek egymást támogatják a minél hitelesebb eredmény érdekében.

Ismertetésre kerül a technikai telepítés is: a helyi gépre Docker segítségével telepítik a Cinema Audiot, kihasználva egy Nvidia RTX 6000-es GPU 48 GB VRAM-ját a pontos, teljes modell futtatásához. Emellett szó esik a Gemma 3 12B nyelvi modell szerepéről és arról, miként használhatók különböző pontossági szintek kisebb memóriakapacitás esetén.

A videó látványos demókkal mutatja be, hogy a hangmodell miként boldogul férfi vagy női, különféle életkorú személyek, valamint számos nyelv – például angol, arab, lengyel, francia, német, hindi, japán, orosz, thai, portugál, svéd és kínai – megszólaltatásával, sőt, még helyi dialektusokkal és hangklónokkal is. A különféle jelenetek (például parkban, hálószobában vagy tengerparton) és érzelmi szituációk mind vizsgálatra kerülnek.

Érdekes kérdések merülnek fel: mennyire hitelesek az érzelmek egyes nyelveken, hogyan kezeli a modell a hosszú szövegeket, az idegen nyelvi vagy tájszólásbeli árnyalatokat, és milyen kihívásokba ütközik a háttérzajok és zenei effektek szétválasztásakor. A nézők aktív visszajelzését kérik a különböző demók értékeléséhez.

Új érzelemgazdag hanggeneráló mesterséges intelligencia bemutatása

Hasonló tartalmak:

Techóriások titkos pénzmozgásai és az AI-befektetések buborékja

Open MOSS új modellje: átirat és beszélőszétválasztás egyszerre több nyelven

Kínai AI chipek: valós teljesítmény vagy csak papíron erősek?

Superlinked SIE: 150 AI modell egyetlen konténerben a hatékony fejlesztésért

ChatGPT Work bemutató: az új munkaeszköz forradalmasítja a feladatkezelést