A fejlesztők saját hivatalos DFlash Drafter modelljének megjelenésével új lendületet kapott a gyorsabb és hatékonyabb AI szöveggenerálás témája. Nem közösségi kísérletről vagy külső portolásról van szó, hanem az eredeti csapat, a Z Lab mutatta be a saját változatát, amely a Google Gemma 4 26B modellel került párosításra.
Izgalmas technikai részletek kerülnek elő: a Gemma 4 26B egy „mixture of experts” rendszer, ahol a 26 milliárd paraméterből csak 4 milliárd aktiválódik minden tokenre, így a nagyobb modell tudását kisebb erőforrásigénnyel lehet kihasználni. Ehhez társul a DFlash spekulatív dekódoló algoritmus, amely blokkokban, párhuzamosan javasol új szövegrészleteket, jelentősen növelve ezzel a generálási sebességet.
Gyakorlati bemutató során a szerző saját GPU-n (Nvidia H100, 80 GB VRAM) teszteli a folyamatot VLLM segítségével, ahol Triton és Flash Attention technológiákat is alkalmaznak a számítási hatékonyság növelésére. Problémaként jelenik meg a modell hozzáférésének szabályozottsága, hiszen a Hugging Face-en keresztül, feltételek elfogadásával válik csak elérhetővé.
Külön kitérnek arra, hogyan lehet a méréseket elvégezni és milyen statisztikákat érdemes figyelni a sebesség és pontosság vizsgálatakor. Az újítás központi kérdése, hogy a DFlash mennyivel tudja növelni a token-generálás ütemét, és mit jelenthet ez a jövő AI rendszerei számára — anélkül, hogy a válaszok minősége csökkenne.










