A
A
  • Angol
  • Magyar
  • 21 perc

Új korszak az AI videóalkotásban: itt az LTX2 nyílt forrású modell

Bemutatkozik az LTX2, egy teljesen nyílt audio-videó AI modell, amely otthoni hardveren is fut, multimodális és testreszabható.

Az AI videóalkotás terén jelentős mérföldkőhöz érkeztünk: bemutatták az LTX2-t, a Litri teljesen nyílt forráskódú videóalapú modelljét. A fejlesztők nemcsak a modell súlyait tették közzé, hanem a teljes tréningkódot és a benchmarkokat is, így szinte bárki alkalmazkodhat hozzá saját igényei szerint.

Az LTX2 optimalizált futtatásra készült Nvidia RTX GPU-kon, lehetővé téve kiváló minőségű, lokális videógenerálást hétköznapi fogyasztói hardveren. Nemcsak kép- és szöveg alapú inputokat képes kezelni, de natív módon támogatja az audiót is, igazi multimodális pipeline-t kínálva.

Az összehasonlításban megvizsgálják a teljes és a desztillált modelleket: a felhasználók választhatnak a maximális minőség vagy a gyorsabb, erőforrás-takarékosabb generálás között. Elhangzik, hogy a Comfy UI integráció révén a vizuális workflow és a modellek kezelése átlátható, miközben részletesen bemutatják a felület használatát kezdők és haladók számára egyaránt.

Felvetődik a kérdés, mennyire tudják a különböző LoRA-k (alacsonyrangú adaptációk) modulárisan finomhangolni a modellt specifikus stílusokra, mozgásokra vagy karakterekre. A lehetőségek révén például különféle kamermozgásokat – mint a dolly balra – játszhatunk le a generált videókban.

Az alkotás folyamatának bemutatásán keresztül nyílik tér a multimodális lehetőségek és a felhasználási módok felfedezésére: akár képből, akár szövegből, akár hangból indul a generálás, a rendszer alkalmazkodóképessége és szabadsága hangsúlyos kérdéseket vet fel.