Ez az útmutató könnyen követhető lépéseken vezeti végig az olvasókat, hogy miként lehet saját adatállománnyal LoRA modellt tanítani Z Image alapon, helyben, az AI Toolkit segítségével. Érdekességként egy balinéz mitikus lényt, a barongot választják példának, amelynek képeit különböző szögekből, kontextusban mutatják be.
Részletesen bemutatásra kerül a fejlesztőkörnyezet létrehozása Ubuntu alatt, és hogy miként használható fel akár bérelt grafikus kártya is (például egy Nvidia RTX 6000 48 GB VRAM-mal), valamint hogy milyen rendszerkövetelmények szükségesek. Fontos momentum a helyes AI Toolkit telepítése virtuális környezetben, továbbá a Node.js és az npm használata is előkerül.
A videó lépésről lépésre ismerteti a saját képgyűjtemény (adatállomány) előkészítését, a képek feliratozását (captioning), amelyek során AI modell is igénybe vehető az automatikus leírás generálására. Megtudhatjuk, hogy miért fontos a képek változatossága, és hogyan lehet ezeket a képeket és feliratokat helyesen összerendezni.
Kitér a helyes konfigurációs lépésekre az AI Toolkit-ben (például Hugging Face token hozzáadása, megfelelő modell kiválasztása, tréning elnevezése, trigger szó megadása, lépésszám, checkpoint mentési gyakoriság), továbbá hangsúlyozza néhány YAML beállítás jelentőségét, mint az AdamW optimizer beállítása és a guidance embedding bypassolása.
Az érdeklődők megismerik a tréning elindításának módját, a szükséges VRAM-mennyiséget, valamint példákat láthatnak arra, hogyan generálható a tanított LoRA-val a barong különböző helyszíneken. Megtudható az is, hogy a folyamat várhatóan 6-7 órát vesz igénybe, és mire érdemes odafigyelni a saját projekt esetén. Több kérdést is felvet a képekkel, trigger szavakkal, adattípusokkal, optimális beállításokkal kapcsolatban, felkeltve az érdeklődést a LoRA helyi tréningének további mélységei iránt.










