Kiemelkedő fejlesztés történt a llama.cpp szoftverben, amikor a közösség örömmel fogadta az MTPR funkció főágba kerülését. Ez a fejlesztés egy másik, kevésbé közismert módszert is tartalmazott: az engram mod nevű spekulatív dekódolási technikát, amely teljesen új megközelítést biztosít a mintafelismerésre.
Az összeállítás során két spekulatív dekódolási módszer működik egyszerre: az egyik (MTP) a modell gyors előrejelző fejeit használja, míg a másik (engram mod) mintázatokat keres a már generált szövegben, és ezekhez kapcsolódva automatikusan új tokeneket javasol. A kettő kombinációja jelentős teljesítménynövekedést eredményez, különösen kódolási feladatok során, ahol gyakoriak a visszatérő szekvenciák.
A tesztek során részletesen vizsgálják, hogyan befolyásolja a két módszer egyidejű futtatása a teljesítményt ugyanazzal a modellel és hardverrel. Kitérnek arra, hogyan lehet konfigurálni a szervert, milyen parancssori beállításokat érdemes alkalmazni, valamint hogy az erőforrás-felhasználás (pl. VRAM-igény) hogyan alakul ezek mellett.
Érdekes kérdések merülnek fel a spekulatív dekódolás jövőjével, az automatizált szekvenciafelismerés előnyeivel, valamint a helyi futtatás feltételeivel kapcsolatban. Feltárják, hogyan alakíthatják át ezek a megoldások a hatékonyságot nagy nyelvi modellek gyakorlati alkalmazásában.










