A
A
  • Angol
  • Magyar
  • 9 perc

Gyorsabb szöveggenerálás a Google Gemma 4 MTP drafter modelljével

A Google új MTP drafter modellje jelentősen felgyorsítja a Gemma 4 család szöveggenerálását, miközben megőrzi a kimenet minőségét – a videó bemutatja a gyakorlati különbségeket és az újdonság működését.

Nemrég jelentette be a Google a Gemma 4 MTP drafter modelleket, melyek a Gemma 4 család tagjaival együttműködve gyorsabb és hatékonyabb szöveggenerálást ígérnek. Eddig az egyik legnagyobb kihívás az volt, hogy a hasonló méretű versenytárs modellekhez képest a Gemma 4 jelentősen lassabban teljesített, aminek okait részletesen bemutatják.

A magyarázat során kiderül, hogy eddig a nagy nyelvi modellek minden egyes szót, azaz tokent, egyesével prediktáltak, ami jelentős számítási kapacitást igényelt. Az újítás lényege, hogy egy kisebb, „drafter” modell több tokent előre megtippel, majd a nagyobb modell ezeket egyszerre ellenőrzi – így jelentősen gyorsul a generálás üteme.

A műsorban élőben telepítik és futtatják mindkét modellváltozatot, mérve a teljesítményt és kiemelve, milyen előnyökkel jár az MTP drafter alkalmazása. Kiemelt kérdés, hogy mennyivel nő a tokensebesség, és hogyan változik az erőforrás-fogyasztás. Mindezt egy erős Nvidia H100 GPU-n hajtják végre, szemléltetve az eredményeket egy kórházmenedzsment rendszer generálásával.

Az összehasonlítás során szó esik arról is, milyen különbségek vannak a Google-féle MTP (Multi-Token Prediction) megközelítése és a DFlash eljárás között. Mindkét módszer kis modellt használ a lehetséges szövegrészek megtippelésére, ám a működés logikája és a hatékonyság elve eltérő. A különböző hozzáállások és kompromisszumok izgalmas kérdéseket vetnek fel a jövőbeli modellfejlesztés kapcsán.