A
A
  • Angol
  • Magyar
  • 9 perc

Stable Video 4D 2.0: Több nézőpontú 3D-videók egy képből vagy GIF-ből

Kiderül, miként telepíthető és használható a Stable Video 4D 2.0 fejlett videógeneráló modell, amely egyetlen képből vagy GIF-ből négydimenziós, több nézőpontú mozgó 3D-videót képes készíteni.

Ebben a videóban a Stable Video 4D 2.0-t ismerhetjük meg, amely egy fejlett, több nézőpontú videó-diffúziós modell, képes dinamikus 3D tárgyak létrehozására időbeli mozgással együtt. A bemutató során egy virág képe alapján a modell három különböző nézőpontból készít felvételt, majd ezekből négydimenziós videót állít elő.

A szerző bemutatja, hogyan lehet a Stable Video 4D-t lokálisan telepíteni, és végigvezet a folyamaton Ubuntu rendszeren, erőteljes Nvidia GPU hardver mellett. Szó esik arról is, hogy a modell jelentősen fejlődött elődjéhez képest: most már jobban kezeli az eltakarást, élethűbb valós jeleneteket is képes feldolgozni, illetve élesebb, egységesebb eredményeket nyújt fejlettebb hálózati architektúrának és adathalmazoknak köszönhetően.

A nézők betekintést kapnak abba, miként lehet a mesterséges intelligencia segítségével egyetlen videóból több nézőpontú, mozgásban lévő 3D objektumokat létrehozni. A bemutató során különböző példákra térnek ki, megvizsgálva a modell teljesítményét különféle bemenetekkel, miközben szóba kerül a rendszer erőforrás-igénye, valamint a VRAM-fogyasztás is.

Felmerülnek kérdések arról, hogy az új változat mennyivel képes többet nyújtani az előzőhöz képest, mennyire tud pontos, valósághű nézőpontokat generálni, illetve van-e számottevő különbség a modellek között. Emellett felvetődik az is, hogy a mesterséges intelligencia immár nemcsak statikus, hanem dinamikusan változó, többrétegű világokat képes alkotni, ami új távlatokat nyit a digitális tartalomkészítésben.