A Gemma 4 12B modell két fő kvantált változatának teljesítményét és használhatóságát hasonlítja össze a videó. Mivel az alapmodell nagy memóriát igényel, a kvantálás lehetővé teszi, hogy a legtöbb fogyasztói hardveren is fusson, de ennek ára lehet a pontosság és a minőség csökkenése.
Két különböző kvantálási eljárás kerül bemutatásra: a Google által fejlesztett QAT (quantization-aware training), valamint az Unsloth által használt utólagos kvantálás dinamikus bithozzárendeléssel. Mindkét megközelítés más-más előnyökkel és lehetséges hibákkal járhat, így a videó részletesen vizsgálja, hogyan viselkednek ezek a gyakorlati feladatok során.
A tesztek során különböző képességeket mérnek: egy kódgenerálási feladatban egy turbinlapát-tervező eszközt kell megalkotni, ahol fontos szempont az interaktivitás, a fizikai számítások kezelése és a felhasználói felület minősége. Emellett SQL-lekérdezések optimalizálásában és hibakeresésében is összemérik a modelleket, valamint a többnyelvű fordítás pontosságát is értékelik.
Az egyes modelleknél kitérnek a VRAM-használatra, a válasz minőségére, a helyesírási és szerkezeti megoldásokra, illetve a kód vagy a lekérdezés újraírásának logikájára. Felmerül a kérdés, hogy melyik modellel lehet hatékonyabban dolgozni, illetve mennyire számít a kvantálás módszere a gyakorlati eredmények tekintetében.









