Az utóbbi időszakban jelentős fejlemények történtek az AI-alapú képgenerálás és videókészítés területén. Egy frissen megjelent multimodális mesterséges intelligencia-modell, a Hunan Custom, teljesen nyílt forráskódú, és ingyenes hozzáférést kínál. Ennek köszönhetően a felhasználók könnyűszerrel kipróbálhatják, anélkül hogy bonyolult letöltésekkel kellene bajlódniuk.
Érdekes megközelítést alkalmaz a Hunan Custom, hiszen nemcsak képből, hanem hangból és szöveg alapján is képes videókat generálni, valamint többféle referencia használatával is működik. A technológiai bemutató során összehasonlításokat láthattunk más élvonalbeli AI-videómodellekkel, mint például a Pika, a Cling vagy a Sky Rails, külön kitérve az erősségekre, valamint a jelenlegi hiányosságokra is.
Néhány példán keresztül megvizsgálhatóvá válik, hogyan kezeli a rendszer a karakterek vagy tárgyak következetességét, illetve mennyire tud komplex jeleneteket, akciókat vagy mozgásokat leképezni. Felmerül a kérdés, mennyiben tudnak ezek a modellek hiteles és életszerű eredményeket nyújtani, vagy miket kell még fejleszteni annak érdekében, hogy a mesterséges intelligencia által generált videók elérjék a valódi filmek minőségét.
Miközben a Google Gemini képgenerátorát is frissítették – amely az új verzióban pontosabb szöveges irányításra és jobb képi minőségre képes –, a Runway platform is ingyenesen elérhetővé tette egyes funkcióit a felhasználók számára. Ezek a fejlemények új lehetőségeket nyitnak a kreatív tartalomgyártásban, azonban fontos kérdés, hogy milyen korlátozások és kihívások maradnak még mindig jelen a különböző AI-alapú eszközökben.