A
A
  • Angol
  • Magyar
  • 18 perc

Kvantált nyelvi modellek rejtett hibái és minőségromlása

Mitől lesz egy kvantált mesterséges intelligencia modell megalapozott vagy teljesen megtévesztő? A videó bemutatja, mikor kezd el egy LLM hamis válaszokat adni, hiába tűnik elsőre helyesnek a kimenet.

A videó a lokálisan futtatott, kvantált nyelvi modellek (LLM-ek) minőségromlását vizsgálja eltérő kvantálási szinteken keresztül. Bemutatja, hogy a legtöbb népszerű LLM-teszt és útmutató szinte automatikusan 4 bites kvantálásra állítja a modelleket, de kevesen beszélnek arról, pontosan milyen kompromisszumokkal kell szembenézni ebben a folyamatban.

Különböző bitmélységekkel (BF16-tól 1 bitig) kvantálva teszteli a Quen 3 32B modellt, miközben bemutatja, mennyire megtévesztően hasonlóak tudnak maradni a kimenetek bizonyos kvantálási szintekig. A modellek különféle benchmarkokon teljesítenek, például perplexity, MMLU, ARC Challenge, GSM8K, valamint a saját fejlesztésű Code Needle teszten, hogy feltérképezzék, mely minőségi mutatók romlanak először.

Felmerül a kérdés, hogy honnan lehet észrevenni, amikor egy kvantált modell valójában már helytelen információkat ad – miközben látszólag jól működik. A teszteredményekből kiderül, hogy a kvantálás bizonyos szinteken csak egy-egy részfeladatot tesz hibássá, míg más képességek hosszabb ideig megmaradnak.

Érdekes jelenségként mutatja be, hogy a modellek néha egészen váratlan hibákat produkálnak: ténybeli pontatlanságokat, formátumbeli hibákat, sőt, akár „hallucinációkat” is, amikor például téves információkat adnak az űrhajósokról. Az is előkerül, hogy szélsőséges kvantálás esetén a modell egész egyszerűen elveszíti tudását vagy értelmes válaszadási képességét, vagy más nyelven, például kínaiul kezd el válaszolni.

A bemutatott példák rámutatnak arra, hogy a kvantálás nem folyamatos minőségromlást, hanem egyes részfeladatok véletlenszerű „elszakadását” eredményezheti. A videó végül feldobja a kérdést, hogy mikor és milyen hardveren érdemes kompromisszumot kötni a modellek mérete és működési sebessége között, ha valós információkat és megbízható válaszokat várunk el egy modern LLM-től.