Ebben a videóban egy új, nem-autoregresszív beszédszerkesztő modellt, a PlayDiffusion-t mutatják be, amelyet a play.ai fejlesztett ki. A prezentátor, Fahad Miza bemutatja, hogyan lehet ezt a modellt saját gépen, helyileg telepíteni, miközben végigvezeti a felhasználót az telepítési folyamaton egy Ubuntu rendszer és egy Nvidia RTX 6000 GPU segítségével.
A modell egyik legnagyobb előnye, hogy lehetővé teszi a hangfelvételek precíz szerkesztését anélkül, hogy az egész szöveget újra kellene generálni. A videó gyakorlati példákon keresztül szemlélteti, hogyan tudunk szavakat vagy mondatrészeket cserélni hanganyagban, miközben a természetesség és a hangminőség megmarad.
Az architektúra négy lépésből áll: a hang tokenize-álása, a szerkesztendő szakaszok kijelölése, egy diffúziós modell alkalmazása a módosított részre, majd a rekonstruált beszéd generálása. A hagyományos módszerekkel szemben itt nincs szükség egész bekezdések újragenerálására, ezért sokkal természetesebb eredményt kapunk.
A lehetőségeken túl a videó kitér a PlayDiffusion többnyelvűségére is, és teszteli angol, spanyol, francia és arab nyelven, hogy mennyire képes az adott nyelv szerkesztésére. Bizonyos nyelveknél korlátozásokba ütközik, más nyelveknél pedig meglepően jó eredményt ér el.
Felmerülnek érdekes kérdések is: milyen mértékben használható a technológia különböző nyelveken? Milyen hardverigényei vannak a modellnek? Meddig tarthat a fejlesztés, hogy akár teljesen soknyelvű legyen a rendszer, és elérhető legyen a nagyközönség számára?