A
A
  • Angol
  • Magyar
  • 10 perc

HunyuanImage-2.1: Szövegből kép AI helyi telepítéssel Ubuntu alatt

Kipróbálható a Tencent új, optimalizált, nagyfelbontású szövegből képet generáló AI modellje helyi telepítés mellett, ahol a prompt optimalizálást és képrefinálást is tesztelik.

Az új HunyuanImage-2.1 modellt a Tencent fejlesztette ki, és elsősorban a szövegből képet generáló mesterséges intelligencia rendszerek között jelentős újdonságnak számít a maga 2K-s, éles felbontásával. A néző betekintést nyer abba, mennyire fontos az optimális prompt megalkotása, hiszen ezzel lehet valódi minőségi képeket előállítani AI segítségével.

A videóban lépésről lépésre követhetjük a modell helyi telepítését Ubuntu rendszeren egy Nvidia RTX A6000 GPU segítségével, kezdve a virtuális környezet elkészítésével, egészen az összes szükséges függőség és repo letöltéséig. Felmerül a kérdés, mennyire könnyű vagy nehéz egy ilyen modell beüzemelése saját gépen, és milyen hardverigényei vannak egy mai, modern képgeneráló szoftvernek.

Külön figyelmet kap a HunyuanImage-2.1 architektúrája: 32-szeres térbeli tömörítés, speciális kétlépcsős pipeline, többnyelvű prompt feldolgozás és egy 17 milliárd paraméterrel dolgozó diffúziós transformer. Az AI nemcsak adatból, hanem emberi visszajelzésekből is tanul, így az elkészült képek egyre realisztikusabbá és vizuálisan vonzóbbá válnak.

Az alkotó bemutatja a különböző funkciókat: képgenerálás, prompt fejlesztés és képfeldolgozás. Érdekes kérdésként merül fel, hogy a prompt-optimalizálás mennyiben segíti az alkotó folyamatot, továbbá, hogy a képrefinálás funkció vajon mennyi hozzáadott értéket jelent a modell számára. Tesztképek elemzésén keresztül rávilágít a részletes képek, realisztikus ábrázolások, valamint a mesterséges intelligencia korlátaira is, például egyes utasítások értelmezésében vagy a karakterek irányultságában.