Lendületes fejlesztések érkeztek a helyi AI-ökoszisztéma meghatározó eszközéhez: az MTP (multi-token prediction) támogatás bekerült az eredeti llama.cpp repóba, így mostantól mindenki könnyen és közvetlenül élvezheti az új gyorsítási megoldást.
A videó rövid ismertetőt ad az MTP technológia működéséről – hogyan képes egy előrejelző fej három token előre történő megjóslására, és miként teszi ez hatékonyabbá a gépi tanulási folyamatot. Az architektúra érdekessége, hogy nincs szükség plusz VRAM-ra külön draft modellekhez, hiszen minden továbbfejlesztés a modellen belül történik.
Az elkészülő konfiguráció során a szerző bemutatja a telepítést, a szükséges parancsokat, és hogy milyen trükkökkel lehet a Qwen 3.6 27B modellt futtatni helyileg, lényegesen megnövelt sebességgel, akár mindössze két kapcsolóval. Külön kérdések fogalmazódnak meg az optimális VRAM-felhasználásról, illetve a különböző quantizációs változatok előnyeiről.
Betekintést nyerhetünk a teljesítmény összehasonlításába is: MTP nélkül és MTP-vel futtatva hogyan változik a tokenek generálási sebessége, valamint miként befolyásolják a beállítások az erőforrás-felhasználást. További témákban a videó utal az aktuális fejlesztési trendekre is, és kitekintést ad a közeli jövő várható, új modelljeire.








