A
A
  • Angol
  • Magyar
  • 9 perc

Hogyan gyorsítsd fel a 27 milliárdos AI-modellt otthoni GPU-n különleges technikákkal

Egy úttörő eljárás mutatja be, hogyan futtatható egy óriási AI-modell otthoni GPU-n, kompromisszummentes sebességgel és egyedi technikai megoldásokkal.

Ebben az anyagban egy 27 milliárd paraméteres nyelvi modell futtatásának technikai részletei kerülnek reflektorfénybe, amelyet egyetlen otthoni, fogyasztói GPU-n is sikerült használható sebességgel üzemeltetni.

A központban egy teljesen új, nulláról felépített inferencia motor áll, amely C++ és CUDA nyelven készült, közvetlenül a GGML könyvtárra építve. Nem használ sem Pythont, sem népszerű open source keretrendszereket, így a program közvetlenül éri el a hardvert a maximális teljesítmény érdekében.

A bemutató egyik legizgalmasabb technikai újítása, hogy egy kisebb, előzetes (draft) modellel előre megjósolják több token lehetséges kimenetét, majd a fő, nagy modell egy lépésben, párhuzamosan ellenőrzi ezeket. Ez az eljárás jelentős, közel háromszoros gyorsulást eredményez a hagyományos tokenenkénti generáláshoz képest. Az anyag külön részletezi, miként sikerült fogyasztói kártyákon, például az RTX 3090-en, a modell súlyait GGUF formátumban futtatni.

Felmerülnek technikai kompromisszumok is, mint például a kizárólag greedy dekódolási lehetőség, vagy a CUDA-függőség, illetve az is, hogy jelenleg csak egy konkrét modellpár működik ezzel a megközelítéssel. Ezek a kérdések jól rávilágítanak arra, milyen irányba lehet fejleszteni a jövőben a helyi (local) AI futtatást.