A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 9 perc

A llama.cpp sebességnövelése spekulatív dekódolással

Két spekulatív dekódolási technika kombinálása jelentős sebességnövekedést hoz a llama.cpp helyi futtatása esetén.

Kiemelkedő fejlesztés történt a llama.cpp szoftverben, amikor a közösség örömmel fogadta az MTPR funkció főágba kerülését. Ez a fejlesztés egy másik, kevésbé közismert módszert is tartalmazott: az engram mod nevű spekulatív dekódolási technikát, amely teljesen új megközelítést biztosít a mintafelismerésre.

Az összeállítás során két spekulatív dekódolási módszer működik egyszerre: az egyik (MTP) a modell gyors előrejelző fejeit használja, míg a másik (engram mod) mintázatokat keres a már generált szövegben, és ezekhez kapcsolódva automatikusan új tokeneket javasol. A kettő kombinációja jelentős teljesítménynövekedést eredményez, különösen kódolási feladatok során, ahol gyakoriak a visszatérő szekvenciák.

A tesztek során részletesen vizsgálják, hogyan befolyásolja a két módszer egyidejű futtatása a teljesítményt ugyanazzal a modellel és hardverrel. Kitérnek arra, hogyan lehet konfigurálni a szervert, milyen parancssori beállításokat érdemes alkalmazni, valamint hogy az erőforrás-felhasználás (pl. VRAM-igény) hogyan alakul ezek mellett.

Érdekes kérdések merülnek fel a spekulatív dekódolás jövőjével, az automatizált szekvenciafelismerés előnyeivel, valamint a helyi futtatás feltételeivel kapcsolatban. Feltárják, hogyan alakíthatják át ezek a megoldások a hatékonyságot nagy nyelvi modellek gyakorlati alkalmazásában.