Az alkotó bemutatja, hogyan lehet mesterséges intelligencia segítségével zavaró, felesleges objektumokat vagy akár személyeket eltávolítani videókból teljesen helyileg, azaz a saját számítógépünkön, internetkapcsolat nélkül. Középpontban a Rose nevű modell áll, amely nemcsak magát az eltávolítandó tárgyat, hanem annak minden mellékhatását is képes felismerni és retusálni – például árnyékokat, tükröződéseket, fényfoltokat vagy áttetsző lenyomatokat.
A modell egyik különlegessége, hogy nagyrészt szintetikus adatokon tanult, mivel valós párok, ahol ugyanaz a jelenet létezik tárggyal és tárgy nélkül az összes mellékhatással együtt, igen ritkák. A kutatók ezt egy 3D renderelővel oldották meg, így változatos példákon tudott tanulni az algoritmus.
Az eljárás lényege, hogy a Rose végigviszi az eltávolítás folyamatát az egész videón, figyel a térbeli és időbeli összefüggésekre, és nem csak egy-egy képkockát manipulál. Az architektúra bemutatásakor szó esik a diffúziós transzformer alapokról, a variációs autoenkóderekről, illetve arról, hogy a mellékhatásmaszk előrejelzése és integrálása hogyan javítja a végső eredményt.
A telepítés során végigkísérhetjük a rendszer felállítását Ubuntu alatt, külön kiemelve a szükséges GPU-kapacitást és VRAM-szükségletet. Demonstrációkban többféle videó szerepel, így jól látszik, mikor mennyi idő alatt készül el a feldolgozás, hogyan változik az erőforrás-felhasználás, illetve milyen pontossággal távolítja el a kijelölt objektumokat az MI.










