A
A
  • Angol
  • Magyar
  • 11 perc

Hanghatás-generálás videóból: a HunyuanVideo-Foley modell bemutatása

A mesterséges intelligencián alapuló HunyuanVideo-Foley modellt mutatja be a videó, amely képes valósághű hanghatásokat generálni videókhoz és szöveges leírásokhoz automatikusan, professzionális minőségben.

Felfedezhetjük, hogyan lehet mesterséges intelligencia segítségével professzionális hanghatásokat előállítani videókhoz helyi futtatással. A bemutatott HunyuanVideo-Foley modell a vizuális tartalmakat és opcionális szöveget is felhasznál, hogy élethű, a mozgással és jelenetekkel szinkronban lévő hangeffekteket generáljon.

Megismerhetjük a telepítés és az első indítás lépéseit, különös tekintettel az elvárt rendszerigényekre, például a szükséges VRAM mennyiségére. A gyakorlatban különféle példákat is láthatunk: ilyenek például egy bokszoló kengurus jelenet, egy repülő csókot adó animált nő vagy egy animált vihar.

Részletesen bemutatásra kerül a modell innovatív architektúrája, amely multimodális transzformer blokkokra, többféle enkóderre és dekóderre épül, vizuális, szöveges és hang adatokat ötvözve. Külön figyelmet kap, hogyan támaszkodik a rendszer szinkronizációs jelekre, hogy tökéletesen időzített hangot állítson elő. A demonstrációkból kiderül, mennyire sikeresen tudja a mesterséges intelligencia a képi világból és a rövid szöveges utasításokból a legkülönfélébb hanghatásokat létrehozni.

Felvetődik a kérdés, mire alkalmas egy ilyen szintű hanggenerálás a filmiparban, a játékfejlesztésben vagy akár a reklámkészítésben; illetve hol húzódik a határ az automatizált és az emberi audio-produ kció között.