Egy különleges, helyben futtatható képgenerátor modellt mutatunk be, amely merész módon mindössze három lehetséges súlyértékkel – mínusz egy, nulla, plusz egy – működik. Ezzel a trimódusú (ternary) rendszerrel drasztikusan csökkenthető a modell mérete, miközben a képgenerálás minősége és rugalmassága fennmarad.
A technológia alapját a Flux nevű, széles körben elismert nyílt forráskódú képgeneráló modell adja, amelyet úgy optimalizáltak, hogy a súlyok tárolását egyedi módon kezelik: minden 128 súlycsoportra egy pontos (FP16) skálázóérték kerül. Ez a megközelítés radikális méretcsökkentést tesz lehetővé, így akár 1,21 GB-ra is csökkenhet a modell mérete, megőrizve az alapvető képességeket.
A bemutató során számos képgenerálási parancs és minta kerül kipróbálásra – a természetes fényhatású bonsai fától a grúziai kolostoron át az elhagyatott hanoi internetkávézóig. Különféle helyszínek, hangulatok és részletek kerülnek előtérbe: a mélységábrázolás, a textúrák finomsága és a promptértelmezés is vizsgázik ebben az újszerű rendszerben.
A videó fontos témákat vet fel a gépi tanulás modellek optimalizálásáról, a bináris és ternáris súlyreprezentációk különbségéről, valamint arról, hogy milyen kompromisszumokat kell kötni a miniatürizálás és a minőség megőrzése között. A néző betekintést nyer a futtatási környezetekbe, platformkompatibilitásba, valamint abba, hogy mennyire megfizethetővé válik ezáltal a modern AI képgenerálás.










