A
A
  • Angol
  • Magyar
  • 9 perc

Új AI-modell a hibakeresés és kreatív kódgenerálás tesztjén

A Laguna M.1 modellt valós kódolási hibák kijavításával és kreatív feladatokkal tesztelik, miközben összevetik teljesítményét más népszerű AI-modellekkel.

Az új Laguna M.1 modell, amely 225 milliárd paraméterrel dolgozik, kifejezetten ügynöki programozásra és komplex, hosszú távú feladatok megoldására készült. A bemutató során részletesen megvizsgálják, hogy mire képes ez a nyílt súlyokkal rendelkező mélytanulási modell, amely multi-GPU infrastruktúrán is futtatható vagy API-n keresztül is hozzáférhető.

A tesztelés során egy valós, teljes veremű (full-stack) focivébé csoportkövető alkalmazás hibáit vizsgálják, ahol felmerülő problémák, például adatbázis és frontend-backend kommunikációs zavarok kapcsán elemzik a modell hibakeresési és javítási képességeit. Felmerül, mennyire tudja feltérképezni és orvosolni a hibákat egy összetett kód-adatbázisban, ahol több száz fájlt kell átlátnia.

Ezzel párhuzamosan benchmark eredményeket is összevetnek: kiderül, hogyan teljesít a Laguna M.1 más nagy modellekkel – például Devstrol 2, GLM 4.7, DeepSeek v4 flash vagy Quen 3.5 – szemben különböző szakmai programozási tesztekben. Megemlítik, hogy míg bizonyos modellekkel szemben felülkerekedik, más esetekben elmarad a csúcsteljesítménytől.

A következő szegmensben a kreatív kódgenerálási képességeit vizsgálják, például egy fizika alapú, vászonra rajzolt, animált fakép szimulációval. A szerző azt is elemzi, mennyire tudja a nagy nyelvi modell az összetettebb vizuális instrukciókat és kreatív problémákat értelmezni, mennyire tudja megbízhatóan generálni a kódot különleges kérésekre.

Felvetődik a kérdés, vajon a jelenlegi, ügynöki programozásra optimalizált modellek valóban alkalmasak-e minden szoftverfejlesztői munkafolyamat automatizálására, illetve mennyire alkalmazhatók nehezebb, kreatív feladatoknál. A videó több érdekes problémakört jár körül, például a modellek általánosító képességeit, a hibakeresési hatékonyságot, vagy a valós projekteken való alkalmazhatóságot.