A
A
  • Angol
  • Magyar
  • 9 perc

Új AI szöveggenerátor érkezett: Megérkezett a DFlash Drafter a Gemma 4 26B modellel

A Z Lab bemutatta hivatalos DFlash Drafter modelljét, amely a Google Gemma 4 26B modellel párosítva hoz áttörést az AI szöveggenerálás sebességében és hatékonyságában.

A fejlesztők saját hivatalos DFlash Drafter modelljének megjelenésével új lendületet kapott a gyorsabb és hatékonyabb AI szöveggenerálás témája. Nem közösségi kísérletről vagy külső portolásról van szó, hanem az eredeti csapat, a Z Lab mutatta be a saját változatát, amely a Google Gemma 4 26B modellel került párosításra.

Izgalmas technikai részletek kerülnek elő: a Gemma 4 26B egy „mixture of experts” rendszer, ahol a 26 milliárd paraméterből csak 4 milliárd aktiválódik minden tokenre, így a nagyobb modell tudását kisebb erőforrásigénnyel lehet kihasználni. Ehhez társul a DFlash spekulatív dekódoló algoritmus, amely blokkokban, párhuzamosan javasol új szövegrészleteket, jelentősen növelve ezzel a generálási sebességet.

Gyakorlati bemutató során a szerző saját GPU-n (Nvidia H100, 80 GB VRAM) teszteli a folyamatot VLLM segítségével, ahol Triton és Flash Attention technológiákat is alkalmaznak a számítási hatékonyság növelésére. Problémaként jelenik meg a modell hozzáférésének szabályozottsága, hiszen a Hugging Face-en keresztül, feltételek elfogadásával válik csak elérhetővé.

Külön kitérnek arra, hogyan lehet a méréseket elvégezni és milyen statisztikákat érdemes figyelni a sebesség és pontosság vizsgálatakor. Az újítás központi kérdése, hogy a DFlash mennyivel tudja növelni a token-generálás ütemét, és mit jelenthet ez a jövő AI rendszerei számára — anélkül, hogy a válaszok minősége csökkenne.