A videó a lokálisan futtatott, kvantált nyelvi modellek (LLM-ek) minőségromlását vizsgálja eltérő kvantálási szinteken keresztül. Bemutatja, hogy a legtöbb népszerű LLM-teszt és útmutató szinte automatikusan 4 bites kvantálásra állítja a modelleket, de kevesen beszélnek arról, pontosan milyen kompromisszumokkal kell szembenézni ebben a folyamatban.
Különböző bitmélységekkel (BF16-tól 1 bitig) kvantálva teszteli a Quen 3 32B modellt, miközben bemutatja, mennyire megtévesztően hasonlóak tudnak maradni a kimenetek bizonyos kvantálási szintekig. A modellek különféle benchmarkokon teljesítenek, például perplexity, MMLU, ARC Challenge, GSM8K, valamint a saját fejlesztésű Code Needle teszten, hogy feltérképezzék, mely minőségi mutatók romlanak először.
Felmerül a kérdés, hogy honnan lehet észrevenni, amikor egy kvantált modell valójában már helytelen információkat ad – miközben látszólag jól működik. A teszteredményekből kiderül, hogy a kvantálás bizonyos szinteken csak egy-egy részfeladatot tesz hibássá, míg más képességek hosszabb ideig megmaradnak.
Érdekes jelenségként mutatja be, hogy a modellek néha egészen váratlan hibákat produkálnak: ténybeli pontatlanságokat, formátumbeli hibákat, sőt, akár „hallucinációkat” is, amikor például téves információkat adnak az űrhajósokról. Az is előkerül, hogy szélsőséges kvantálás esetén a modell egész egyszerűen elveszíti tudását vagy értelmes válaszadási képességét, vagy más nyelven, például kínaiul kezd el válaszolni.
A bemutatott példák rámutatnak arra, hogy a kvantálás nem folyamatos minőségromlást, hanem egyes részfeladatok véletlenszerű „elszakadását” eredményezheti. A videó végül feldobja a kérdést, hogy mikor és milyen hardveren érdemes kompromisszumot kötni a modellek mérete és működési sebessége között, ha valós információkat és megbízható válaszokat várunk el egy modern LLM-től.










