A
A
  • Angol
  • Magyar
  • 69 perc

Deep learning és matematika: a DeepSeekMath projekt áttörései és a GRPO algoritmus szerepe

A DeepSeekMath projekt példáján keresztül ismerhetjük meg, miként forradalmasítja egy új adatkorpus és a GRPO algoritmus a nyílt nyelvi modellek matematikai problémamegoldását – kiemelve az adatminőség, az iteratív tanítás és a megerősítéses tanulás kihívásait.

A DeepSeekMath nevű projekt kulcsszereplője az úgynevezett GRPO (Group Relative Policy Optimization) algoritmus, amelyet nyílt nyelvi modellek matematikai gondolkodásának fejlesztésére használnak. A munkához egy hatalmas, kifejezetten matematikai tartalmakat tartalmazó adatkorpuszt állítottak össze, amelynek egyedisége abban rejlik, hogy főleg az internetről gyűjtötték össze. A kutatók hangsúlyozzák, hogy nem szintetikus vagy mesterségesen létrehozott adatokat, hanem valós webes szövegeket használtak fel, ezáltal relevánsabb és diverzifikáltabb forrást biztosítva a modell számára.

A tanulmány egyik fő kérdése, hogy elegendő-e pusztán az interneten található nyers adathalmaz megfelelő szűrésével jelentős fejlődést elérni a matematikai problémamegoldásban. Az adathalmaz bővítésére és finomítására egy iteratív megközelítést alkalmaztak, amely során a modellek fokozatosan egyre összetettebb, relevánsabb mintázatokat tanultak meg felfedezni. Ez a módszer nemcsak a minta mennyiségét, hanem annak sokszínűségét is növelte.

A létrehozott adathalmaz alapján a kutatók egy már kódon előképzett modellre építették a DeepSeekMath 7B-t, amely különösen jól teljesít bizonyos matematikai benchmarkokon – ráadásul kisebb méretéhez képest képes felülmúlni a nagyobb, több milliárd paraméteres általános modelleket. A videó betekintést nyújt abba, miként használják az RL (Reinforcement Learning, megerősítéses tanulás) technikákat, kiemelve a GRPO-t, amely minimalizálja a szükséges plusz erőforrásokat azáltal, hogy elhagy egy második értékelő modellt.

Felmerül a kérdés, miképp javítja a megerősítéses tanulás a modellek válaszainak eloszlását, valamint hogy lehet-e még tovább növelni a teljesítményt pusztán utólagos hangolással, vagy a bázis modellek fejlesztése a valódi kulcs. Kiemelt hangsúly esik az adatkorpus relevanciája és minősége közötti különbségre, valamint arra, hogy milyen szerepe van a modell előképzésében a programozási ismereteknek. A videó végigvezeti a nézőt az adatgyűjtés, az iteratív modellfejlesztés, valamint a GRPO lépésről-lépésre történő alkalmazásának módszertanán is.