A
A
  • Angol
  • Magyar
  • 8 perc

A Tencent új nyelvi modellje: fejlett ügynökrendszer és kódgenerálás helyben futtatva

A Tencent YouTu-LLM modellje egyszerre kisméretű, de fejlett ügynöki és kódgeneráló képességekkel rendelkezik, és könnyen futtatható helyi gépen is.

A kínai MI fejlesztéseknél gyakran felmerül, hogy mennyire összetett kutatólabor-hálózatokon keresztül dolgoznak a nagyobb cégek. A Tencent például több ilyen központot üzemeltet. Ezek között az egyik a YouTu nevű, amely eredetileg képfeldolgozással és mesterséges látással foglalkozott, ám jelenleg jelentős áttöréseket ér el a nyelvi modellek és ügynökrendszerek területén is.

A bemutatott YouTu-LLM egy könnyű, mégis fejlett képességekkel rendelkező nyelvi modell, amelyet helyi futtatásra terveztek. 1,96 milliárd paramétere révén jól egyensúlyoz a hatékonyság és az összetett gondolkodási folyamatokat igénylő feladatok között. Szakít a hétköznapi ‘chain of thought’ elvvel, és egy új, ügynöki gondolkodásláncot alkalmaz, amely többlépéses elemzést, tervezést és reflektálást tesz lehetővé.

A telepítési lépések során szó esik a hardverigényekről és arról, hogy a modell mennyi VRAM-ot használ, amely meglepően alacsonynak mondható méretéhez képest. Praktikus példaként teljes, terminálban futó, C nyelven írt csatahajó játékot generáltak vele, amely jól teszteli a modell programkód-alkotási képességét.

Külön szó esik a modell architektúrájáról, például sűrű, többrétegű figyelmi mechanizmusáról, 128k token hosszúságú kontextusablakáról, valamint arról, miként támogatja a technikai tartalmak tömörített, hatékony kezelését.

Felvetődik a kérdés, hogy kis mérete ellenére meddig terjednek a YouTu-LLM által támogatott ügynöki képességek – erre részletes példákat is láthatunk tool-use és függvényhívások révén; illetve az is felmerül, miben más, mint más elterjedt kompakt modellek.