A
A
  • Angol
  • Magyar
  • 13 perc

Google Gemma 4 QAT és Llama.cpp MTP helyi próbatétel egy RTX 6000-en

A videó a Google új Gemma 4 12B QAT modelljét és a Llama.cpp-vel natívan támogatott MTP funkciót mutatja be, részletesen vizsgálva a sebesség- és minőségbeli különbségeket helyi gépen futtatva.

A videó középpontjában a Google által kiadott Gemma 4 12B QAT modell és a Llama.cpp-be most integrált MTP (multi-token prediction) funkció áll. A tartalom röviden bemutatja, hogyan jelent meg a QAT változat, amely már tréning közben adaptálódik a 4 bites tömörítéshez, így kisebb fájlméret mellett is az eredeti minőséget közelíti meg.

Külön érdekessége a bemutatónak, hogy a nézőt végigvezeti a két különböző modell letöltésének, telepítésének és konfigurálásának lépésein egy Ubuntu rendszer alatt, egy Nvidia RTX 6000 GPU-val. Kitér a Llama.cpp frissítéséhez szükséges parancsokra, és arra is, miként lehet meggyőződni arról, hogy az MTP funkció ténylegesen engedélyezve van.

Az összehasonlítás során különböző feladatokat, például humoros feladványokat, speciális SQL lekérdezések javítását, valamint többnyelvű szövegalkotást is tesztel a szerző. Az ismertebb hibákra, mint például az SQL lekérdezések változatossága és a modellszintaktikai eltérések, is felhívja a figyelmet, emellett bemutatja, hogyan mérhető a szövegfeldolgozási sebesség és memóriahasználat a kombinált modell betöltése mellett.

További kérdéseket vet fel a QAT és MTP modellváltozatok gyakorlati különbségeiről, a feldolgozási teljesítményről, valamint arról, hogy a helyi futtatásban elért gyorsaság miként hat a felhasználói élményre, és hogy egy kompakt, 7 GB-os modell mire képes napjainkban.