Az ismertető során részletesen bemutatják, hogyan telepíthető és próbálható ki a Van 2.2 TI2V 5B modell helyben, mellyel szövegből vagy képből állítható elő videó. Több lépésre bontva vezetik végig a ComfyUI legfrissebb verziójának telepítésén, a szükséges modellek letöltésén és a specifikus mappákba helyezésén.
A bemutató érdekessége, hogy különböző text to video és image to video példákat is kipróbálnak, például egy vulkánon sétáló róka vagy egy két holdas tájon száguldó gőzmeghajtású autó jelenik meg a generált videókon. Kiemelt figyelmet kapnak a promptbeállítások, a VRAM-fogyasztás és a diffúziós folyamat működésének szemléltetése is.
Az architektúra újdonságai és a Van 2.2 mögött álló fejlesztési irányok is szóba kerülnek: például, hogy az architektúra szakértői megközelítést alkalmaz, külön ügynökökkel a különböző denoising fázisokhoz, és jelentősen bővített tanulási adathalmazzal dolgozik. Érdekes kérdések merülnek fel a minőség, a számítási igény és a prompthoz való hűség kapcsán – valamint hogyan különbözik az 5 milliárdos modell a 14 milliárdostól.
A bemutató során szponzorokat is említenek, akik többek között AI workflow-menedzsmenttel és bérbe vehető GPU-kkal támogatják a munkafolyamatokat.