Hang a néma videókhoz: a ThinkSound AI megoldása ✦ UMA

Az új ThinkSound modellel mesterséges intelligencia segítségével generálhatók hiteles háttérzajok és hangbeli részletek teljesen néma videókhoz, akár teljesen helyi futtatással is.

Egy különleges mesterségesintelligencia-modellt ismerhetünk meg, amely képes hangot generálni néma videókhoz. A rendszer lépésről lépésre tervezi meg a hangokat: először egy általános háttérzajt készít, majd lehetővé teszi az egyes tárgyakhoz tartozó hangok hozzáadását, végül pedig célzott, szöveges utasítások alapján finomhangolható az audió.

A bemutatott ThinkSound modellt helyileg telepítik egy Nvidia RTX A6000 GPU-val rendelkező gépre. Telepítés közben szó esik a szükséges környezetről, például a virtuális környezetről, a kód letöltéséről és a szükséges csomagok telepítéséről. Külön figyelmet kap az, hogy a modell mérete jelentős – több mint 21 GB –, és jelentős VRAM-ot igényel.

Praktikus példákon keresztül kipróbálják és szemléltetik a hanggenerálás működését: szöveges prompt segítségével többféle zajt, például nyomtatóhangot, vízcsobogást vagy akár macska- és gépzajokat is előállítanak. Az egyes demonstrációk során a VRAM-felhasználás is vizsgálatra kerül.

A videó néhány nehézségre is kitér, mint például az emberi beszédhangok korlátozott kezelése, és rávilágít, mennyire fontos a kreatív és részletes szöveges leírások megadása a meggyőző hanghatások eléréséhez. A rendszer architektúrája izgalmas: egy multimodális nyelvi modell lépésről lépésre elemzi a videót, majd egy egységes hanggeneráló modell készíti el az audiót.

Hang a néma videókhoz: a ThinkSound AI megoldása

Hasonló tartalmak:

AI ügynökök térhódítása: Miért hagyjuk hátra a hagyományos csevegőalkalmazásokat?

Írók technológiai vitája a Linus Tech Tips-nél: Mennyire értenek egyet a csapattagok?

DLSS5, Street Fighter dráma és a játékújságírás kihívásai

AI és a videojátékok: művészet vagy egységesítés?

Hogyan épül a világ 3D térképe egy mobiljáték segítségével