A
A
  • Angol
  • Magyar
  • 11 perc

NVIDIA Cosmos 3: Az új generációs fizikai világmodellező AI bemutatása

Az NVIDIA Cosmos 3 bemutatása, amely egyszerre értelmezi a fizikai világot, szimulálja azt, és képes multimodális tartalmak generálására a robotika és a videó terén egyaránt.

Kezdetben egy rövid háttérmagyarázat hangzik el arról, hogy az NVIDIA kiadta a Cosmos 3-at, amely nem egy hagyományos videógeneráló mesterséges intelligencia. A Cosmos 3 egy úgynevezett omnimodell, amely fizikai AI-ra, azaz a fizikai világ modellezésére, szimulációjára és például robotok vezérlésére alkalmas alapmodell.

A bemutató részletesen ismerteti, hogyan működik a Cosmos 3 architektúrája: két transzformertorony dolgozik együtt, ahol az egyik a szövegfeldolgozásért, a másik a vizuális és fizikai világ megértéséért és generálásáért felelős. Az érdeklődők megtudhatják például, hogyan képes szinkronizált videót, hangot és robotparancsokat előállítani egyetlen szöveges utasításból.

A telepítési folyamat lépéseit is bemutatják: git klónozástól kezdve a szükséges szoftverek telepítéséig, majd a modellt futtató vas hardverig (NVIDIA RTX A6000 és később NVIDIA H100 GPU). Kiemelték, hogy a modell erőforrásigényes, és akár egy 48 GB VRAM-mal rendelkező GPU-n sem fér el, ezért nagyobb, fejlettebb kártyára van szükség.

Több példán keresztül mutatják be, mit képes létrehozni a modell: különböző szövegalapú promptokra szimulált képeket, videókat és hangot generál (például ausztrál outback úton autózó dashcam, vintage autó naplementében, esős éjszaka ablakra esővel és városi neonfényekkel). Felmerülnek kérdések az AI által generált jelenetek természetességéről, különösen emberek esetében, ahol a portrék elhomályosulnak, illetve a mesterségesen hangzó audióról is szó esik.

A videó témája körül több izgalmas kérdés is kibontásra kerül: vajon mennyire köthető össze a nyelvi és fizikai világ modellezése egy ilyen egységes alapmodellben? Hogyan változtatja meg az AI a robotika, autonóm járművek vagy a szimuláción alapuló tartalomkészítés lehetőségeit? Érdemes arra is odafigyelni, hogy milyen technikai és jogi korlátokat állítanak az ilyen AI rendszerek, különösen emberek és kereskedelmi felhasználás esetén.