A DeepSeekMath nevű projekt kulcsszereplője az úgynevezett GRPO (Group Relative Policy Optimization) algoritmus, amelyet nyílt nyelvi modellek matematikai gondolkodásának fejlesztésére használnak. A munkához egy hatalmas, kifejezetten matematikai tartalmakat tartalmazó adatkorpuszt állítottak össze, amelynek egyedisége abban rejlik, hogy főleg az internetről gyűjtötték össze. A kutatók hangsúlyozzák, hogy nem szintetikus vagy mesterségesen létrehozott adatokat, hanem valós webes szövegeket használtak fel, ezáltal relevánsabb és diverzifikáltabb forrást biztosítva a modell számára.
A tanulmány egyik fő kérdése, hogy elegendő-e pusztán az interneten található nyers adathalmaz megfelelő szűrésével jelentős fejlődést elérni a matematikai problémamegoldásban. Az adathalmaz bővítésére és finomítására egy iteratív megközelítést alkalmaztak, amely során a modellek fokozatosan egyre összetettebb, relevánsabb mintázatokat tanultak meg felfedezni. Ez a módszer nemcsak a minta mennyiségét, hanem annak sokszínűségét is növelte.
A létrehozott adathalmaz alapján a kutatók egy már kódon előképzett modellre építették a DeepSeekMath 7B-t, amely különösen jól teljesít bizonyos matematikai benchmarkokon – ráadásul kisebb méretéhez képest képes felülmúlni a nagyobb, több milliárd paraméteres általános modelleket. A videó betekintést nyújt abba, miként használják az RL (Reinforcement Learning, megerősítéses tanulás) technikákat, kiemelve a GRPO-t, amely minimalizálja a szükséges plusz erőforrásokat azáltal, hogy elhagy egy második értékelő modellt.
Felmerül a kérdés, miképp javítja a megerősítéses tanulás a modellek válaszainak eloszlását, valamint hogy lehet-e még tovább növelni a teljesítményt pusztán utólagos hangolással, vagy a bázis modellek fejlesztése a valódi kulcs. Kiemelt hangsúly esik az adatkorpus relevanciája és minősége közötti különbségre, valamint arra, hogy milyen szerepe van a modell előképzésében a programozási ismereteknek. A videó végigvezeti a nézőt az adatgyűjtés, az iteratív modellfejlesztés, valamint a GRPO lépésről-lépésre történő alkalmazásának módszertanán is.