A Mua nevű kínai vállalat bemutatott egy új képgeneráló és képszerkesztő modellt, amely teljesítményben képes felvenni a versenyt az ismert Nano Banana modellel. Ez a fejlesztés lehetővé teszi, hogy akár helyben, ingyenesen is futtathassuk az algoritmust, így nem szükséges online szolgáltatásokra támaszkodni a képszerkesztéshez vagy képgeneráláshoz.
A videó bemutatja az installációs folyamatot, példaként Ubuntu rendszeren, különböző GPU-k használatával. Érdekes technikai részleteket tudhatunk meg a modell felépítéséről, a transzformer blokkokról, valamint a speciális tanítási és finomhangolási eljárásokról, mint például az MROP, GRPO és DPO módszerek.
Különösen figyelemre méltó, ahogy a modell képes realisztikus képeket létrehozni, illetve a kínai szövegek pontos megjelenítésére, amely nehéz kihívást jelent a mesterséges intelligencia számára. A képszerkesztési és generálási tesztek során szó esik a VRAM fogyasztásról és a modell futtatásához szükséges erőforrásokról is.
Számos példán keresztül mutatják be a rendszer képességeit, rámutatva olyan részletekre, mint az árnyékok valósághű megjelenése, vagy az angol és kínai szövegek pontos ábrázolása a generált képeken. Az is felmerül, vajon mennyire képes a rendszer az angol szövegeket is pontosan kezelni, illetve hol húzódnak még a modell határai.









