Ez a videó egy új mesterséges intelligenciával működő hangszegregációs rendszert mutat be, amely lehetővé teszi bármilyen hang elemének elkülönítését összetett hangfájlokból. A bemutató során a készítő kipróbálja, hogyan választható le például egy szirénazaj vagy háttérzene a beszélgetésről vagy más hangokról egy videóban.
Az elhangzottak szerint a technológia a Meta fejlesztése, amely a számítógépes látásban már ismert ‘segment anything’ elvet ülteti át hangokra. Az eszköz képes egyszerű szöveges utasításra célzott hangokat elkülöníteni, de támogat vizuális és időalapú hangkiválasztást is. Ez strukturált és rugalmas módot nyújt a források szétválasztására, legyen szó zenéről, beszédről vagy környezeti zajról.
Felmerül a kérdés is, hogy hogyan működik pontosan a rendszer: a videóban ismertetik az architektúrát, amely egy tömörített, rejtett térben dolgozik, és diffúziós transzformer alapú generatív modult alkalmaz. Az is szóba kerül, hogy a hangkiválasztás mellett különböző effektusokat is használhatunk, mint például visszhang vagy egyéb hangfeldolgozások.
A bemutató kitér a felhasználói élményre is, említve a rendszerhez való hozzáférés korlátait, a várakozási időket, valamint a licencelési kérdéseket, amelyek a közösségi használatot érintik. Ezek fontos témákat vetnek fel az AI-modellek nyilvános elérhetőségével és jogi szabályozásával kapcsolatban.









