A
A
  • Angol
  • Magyar
  • 10 perc

Objektumok eltüntetése videókból a Rose modellel: Lépésről lépésre útmutató

Az útmutató lépésről lépésre mutatja be, hogyan tüntethetünk el tárgyakat videóból teljesen helyi, privát környezetben egy fejlett mesterséges intelligencia modell segítségével.

Az alkotó bemutatja, hogyan lehet mesterséges intelligencia segítségével zavaró, felesleges objektumokat vagy akár személyeket eltávolítani videókból teljesen helyileg, azaz a saját számítógépünkön, internetkapcsolat nélkül. Középpontban a Rose nevű modell áll, amely nemcsak magát az eltávolítandó tárgyat, hanem annak minden mellékhatását is képes felismerni és retusálni – például árnyékokat, tükröződéseket, fényfoltokat vagy áttetsző lenyomatokat.

A modell egyik különlegessége, hogy nagyrészt szintetikus adatokon tanult, mivel valós párok, ahol ugyanaz a jelenet létezik tárggyal és tárgy nélkül az összes mellékhatással együtt, igen ritkák. A kutatók ezt egy 3D renderelővel oldották meg, így változatos példákon tudott tanulni az algoritmus.

Az eljárás lényege, hogy a Rose végigviszi az eltávolítás folyamatát az egész videón, figyel a térbeli és időbeli összefüggésekre, és nem csak egy-egy képkockát manipulál. Az architektúra bemutatásakor szó esik a diffúziós transzformer alapokról, a variációs autoenkóderekről, illetve arról, hogy a mellékhatásmaszk előrejelzése és integrálása hogyan javítja a végső eredményt.

A telepítés során végigkísérhetjük a rendszer felállítását Ubuntu alatt, külön kiemelve a szükséges GPU-kapacitást és VRAM-szükségletet. Demonstrációkban többféle videó szerepel, így jól látszik, mikor mennyi idő alatt készül el a feldolgozás, hogyan változik az erőforrás-felhasználás, illetve milyen pontossággal távolítja el a kijelölt objektumokat az MI.