A
A

UMA hamarosan bemutatkozik

  • Angol
  • Magyar
  • 19 perc

Új távlatok az AI képek és -videók világában: Nyílt forráskódú eszközök és frissítések a középpontban

Új, multimodális AI-modellek és frissen frissített képgenerátorok teszik elérhetőbbé a kreatív tartalomgyártást, miközben összehasonlítva láthatjuk az aktuális AI-videó technológiák erősségeit és kihívásait.

Az utóbbi időszakban jelentős fejlemények történtek az AI-alapú képgenerálás és videókészítés területén. Egy frissen megjelent multimodális mesterséges intelligencia-modell, a Hunan Custom, teljesen nyílt forráskódú, és ingyenes hozzáférést kínál. Ennek köszönhetően a felhasználók könnyűszerrel kipróbálhatják, anélkül hogy bonyolult letöltésekkel kellene bajlódniuk.

Érdekes megközelítést alkalmaz a Hunan Custom, hiszen nemcsak képből, hanem hangból és szöveg alapján is képes videókat generálni, valamint többféle referencia használatával is működik. A technológiai bemutató során összehasonlításokat láthattunk más élvonalbeli AI-videómodellekkel, mint például a Pika, a Cling vagy a Sky Rails, külön kitérve az erősségekre, valamint a jelenlegi hiányosságokra is.

Néhány példán keresztül megvizsgálhatóvá válik, hogyan kezeli a rendszer a karakterek vagy tárgyak következetességét, illetve mennyire tud komplex jeleneteket, akciókat vagy mozgásokat leképezni. Felmerül a kérdés, mennyiben tudnak ezek a modellek hiteles és életszerű eredményeket nyújtani, vagy miket kell még fejleszteni annak érdekében, hogy a mesterséges intelligencia által generált videók elérjék a valódi filmek minőségét.

Miközben a Google Gemini képgenerátorát is frissítették – amely az új verzióban pontosabb szöveges irányításra és jobb képi minőségre képes –, a Runway platform is ingyenesen elérhetővé tette egyes funkcióit a felhasználók számára. Ezek a fejlemények új lehetőségeket nyitnak a kreatív tartalomgyártásban, azonban fontos kérdés, hogy milyen korlátozások és kihívások maradnak még mindig jelen a különböző AI-alapú eszközökben.