Egy különleges mesterségesintelligencia-modellt ismerhetünk meg, amely képes hangot generálni néma videókhoz. A rendszer lépésről lépésre tervezi meg a hangokat: először egy általános háttérzajt készít, majd lehetővé teszi az egyes tárgyakhoz tartozó hangok hozzáadását, végül pedig célzott, szöveges utasítások alapján finomhangolható az audió.
A bemutatott ThinkSound modellt helyileg telepítik egy Nvidia RTX A6000 GPU-val rendelkező gépre. Telepítés közben szó esik a szükséges környezetről, például a virtuális környezetről, a kód letöltéséről és a szükséges csomagok telepítéséről. Külön figyelmet kap az, hogy a modell mérete jelentős – több mint 21 GB –, és jelentős VRAM-ot igényel.
Praktikus példákon keresztül kipróbálják és szemléltetik a hanggenerálás működését: szöveges prompt segítségével többféle zajt, például nyomtatóhangot, vízcsobogást vagy akár macska- és gépzajokat is előállítanak. Az egyes demonstrációk során a VRAM-felhasználás is vizsgálatra kerül.
A videó néhány nehézségre is kitér, mint például az emberi beszédhangok korlátozott kezelése, és rávilágít, mennyire fontos a kreatív és részletes szöveges leírások megadása a meggyőző hanghatások eléréséhez. A rendszer architektúrája izgalmas: egy multimodális nyelvi modell lépésről lépésre elemzi a videót, majd egy egységes hanggeneráló modell készíti el az audiót.