A
A
  • Angol
  • Magyar
  • 9 perc

Ovi: Audio-video generálás mesterséges intelligenciával otthonra

Az Ovi nevű, helyben futtatható, mesterséges intelligencia alapú modell képes egyszerre generálni videót és szinkronizált hangot, egyszerű képi és szöveges utasítások alapján. A tesztelés során érdekes kérdések merülnek fel a pontosság, a szinkronizáció és az emberi kifejezések visszaadása kapcsán.

Az Ovi nevű mesterséges intelligencia modell egyesíti az audio- és videógenerálás lehetőségeit, miközben teljes mértékben helyileg futtatható. Felmerül az izgalmas kérdés: hogyan telepíthetjük otthoni rendszerünkre, és mire képes ez az úttörő technológia egyszerű képekkel és szöveges utasításokkal?

A rendszer úgy működik, hogy egy képet, egy leíró szöveget, egy beszédet és néhány hangutasítást adunk meg, ezután a modell néhány másodperc alatt elkészíti a teljesen szinkronizált videót. Felvetődik, mennyire pontos a szájmozgás, az arckifejezések, valamint hogyan alkalmazkodik a modell a különböző hangszínekhez és érzelmekhez.

Technikai oldalon betekintést kapunk az Ovi architektúrájába, például hogyan fuzionál a két fő komponens (audio és video), miként használ egyetlen szövegkódolót, és milyen speciális tanítási lépéseket alkalmaztak a kiváló időzítés és szinkron érdekében. Emellett szó esik a szükséges hardverről, valamint arról, mennyire hatékonyan használja ki például egy Nvidia H100 típusú GPU teljesítményét.

Praktikus tesztek során kipróbálják a modellt különböző, mesterségesen generált portrékkal, nők különféle kifejezéseivel, sőt, néhány jelenettel is. Felvetődik a kérdés, hogyan kezeli a modell több szereplőt egy képen, és mennyire képes „emberi” interakciókat visszaadni. A végeredmények tapasztalatai alapján szintén elgondolkodhatunk, mi a következő lépés az AI-alapú médiakészítésben.