A
A
  • Angol
  • Magyar
  • 11 perc

Forradalmi kvantálás: Így fut a Google Gemma-4 CPU-n, fél memóriaigénnyel

Az Intel forradalmian új módszerével már a hatalmas Google Gemma-4 modellt is futtathatjuk akár CPU-n, miközben a memóriaigény a felére csökken, és a funkcionalitás is megmarad.

Az Intel bemutatta, hogyan sikerült a Google Gemma-4, 31 milliárd paraméteres gépi tanulási modellt az INT4 kvantálási eljárással tömöríteni, így a szükséges memóriamennyiséget akár felére csökkenteni anélkül, hogy az érdemben érintené a pontosságot.

Érdekes kérdés merül fel arról, miként lehet ilyen hatalmas, multimodális modelleket — melyek komoly látás- és nyelvi képességekkel rendelkeznek — helyben, akár közönséges CPU-n is futtatni, ráadásul szinte ugyanazzal a teljesítménnyel, mint az eredeti verziók. Az auto round eszköz működését lépésről lépésre mutatja be a videó: a modell súlyait először INT4 formátumba kvantálja, majd iteratív kalibrációval minimalizálja a kvantálási hibát.

Az epizódban helyet kapnak a gyakorlati telepítési lépések, valamint bemutatja, hogy a modell hogyan képes képeket értelmezni, nyelveket azonosítani és fordítani, illetve kódot generálni valós példákon keresztül. Többször felmerül a kérdés, hogy mekkora memóriatakarékosságot érhetünk el, és mennyire lesz kompromisszummentes az új INT4-es formátum pontossága.

További izgalmas témák: összehasonlítás az Unsloft kvantálási módszerével, a multimodalitás kihívásai, illetve a nagyobb AI-modellek lokális futtatásának feltételei — GPU- és CPU-környezetben.