A
A
  • Angol
  • Magyar
  • 10 perc

MTP-támogatás a llama.cpp-ben: gyorsabbá válik a Qwen 3.6 futtatása

Friss MTP-támogatással közel kétszer gyorsabbá válik a Qwen 3.6 27B futtatása a llama.cpp-ben, mindössze két kapcsoló használatával.

Lendületes fejlesztések érkeztek a helyi AI-ökoszisztéma meghatározó eszközéhez: az MTP (multi-token prediction) támogatás bekerült az eredeti llama.cpp repóba, így mostantól mindenki könnyen és közvetlenül élvezheti az új gyorsítási megoldást.

A videó rövid ismertetőt ad az MTP technológia működéséről – hogyan képes egy előrejelző fej három token előre történő megjóslására, és miként teszi ez hatékonyabbá a gépi tanulási folyamatot. Az architektúra érdekessége, hogy nincs szükség plusz VRAM-ra külön draft modellekhez, hiszen minden továbbfejlesztés a modellen belül történik.

Az elkészülő konfiguráció során a szerző bemutatja a telepítést, a szükséges parancsokat, és hogy milyen trükkökkel lehet a Qwen 3.6 27B modellt futtatni helyileg, lényegesen megnövelt sebességgel, akár mindössze két kapcsolóval. Külön kérdések fogalmazódnak meg az optimális VRAM-felhasználásról, illetve a különböző quantizációs változatok előnyeiről.

Betekintést nyerhetünk a teljesítmény összehasonlításába is: MTP nélkül és MTP-vel futtatva hogyan változik a tokenek generálási sebessége, valamint miként befolyásolják a beállítások az erőforrás-felhasználást. További témákban a videó utal az aktuális fejlesztési trendekre is, és kitekintést ad a közeli jövő várható, új modelljeire.