Az utóbbi időszakban több nagy horderejű, nyílt forráskódú nagynyelvi modell (LLM) jelent meg, amelyek komoly figyelmet keltettek az AI közösségben. Ebben az összehasonlításban három prominens modellt helyezünk fókuszba: az OpenAI által fejlesztett GPT-OSS-t, az Alibaba Cloud Qwen harmadik generációs modelljét, valamint a Deepseek V3-at.
Mindhárom modell különböző építészeti megközelítéseket alkalmaz, eltérő módon kezelik például a paraméterek aktiválását, a hosszú kontextus kezelését, valamint az adatok előfeldolgozását és szintetikus adatok generálását. Kiemelt témaként kerül terítékre, hogy ezek az architektúrák hogyan optimalizálják a memóriahasználatot és gyorsítják a kiértékelést, illetve milyen újításokat alkalmaznak az aktivációs függvények vagy a pozíciós beágyazások terén.
Felmerül a kérdés, hogy a különböző modellek hogyan érik el a hosszú szövegkontextus kezelését, milyen trükkökkel növelik a kontextusablakot, és hogyan hat mindez a gyakorlatban. Külön említik azt is, hogy a különböző laboratóriumok eltérő megközelítéseket használnak a poszt-tréning és finomhangolási folyamatokban, valamint az RL-algoritmusok alkalmazásában.
Érdekes megfigyelés, hogy annak ellenére, hogy sok felszíni hasonlóság létezik a modellek között (mint például a használt figyelmi mechanizmusok vagy az aktivációs eljárások), a részletekben rejlő megvalósítási különbségek jelentős eltéréseket eredményezhetnek. Az is hangsúlyt kap, hogy mennyire jelentős szerepet játszik az adatkészlet összeállítása az eredményességben, és hogy ezek a részletek sokszor kevésbé transzparensek a nyilvánosság számára.