Ebben az összehasonlító videóban kétféle módon futtatott Qwen 3.6 35B-A3B mesterséges intelligenciamodellt vizsgálnak meg: az egyik a teljes pontosságú, a másik pedig az Ollama által kvantált, tehát kisebb memóriát igénylő verzió.
A tartalom kiindulópontja a modell méretbeli és minőségbeli különbségein alapul. Az egyik fő kérdés, hogy a memóriaspórolásért cserébe mennyit veszítünk a minőségből, például generált kódok vagy nyelvi feladatok esetében.
A videóban technikai részletekre is kitérnek: szó esik a kvantizáció mibenlétéről, VRAM-használatról, a K-means alapú tömörítésről, illetve a gyakorlati telepítési és futtatási folyamatokról nagy erőforrásigényű szervereken.
Részletesen bemutatnak különböző kihívásokat: például egy klasszikus logikai játék (aknamező) megírását C nyelven, amelyet mindkét modell elkészít; egy sürgősségi bejelentés több mint 80 nyelven történő megfogalmazását; valamint mesterséges műholdkép elemzését és szöveges felismerését is összevetik. Ezek a tesztek érdekes eltéréseket és meglepő hasonlóságokat is felszínre hoznak.
Felmerül az is, hogy kisebb VRAM-mal rendelkező felhasználók milyen kompromisszumokat köthetnek, illetve hogy a kvantizált modellek mennyire közelítik meg a teljes pontosságú változat minőségét különféle felhasználási területeken.









