A Laguna XS 2.1 kódoló ügynökét, amelyet a Poolside fejlesztett, különböző aspektusokból vizsgálják ebben a tesztben. Bemutatásra kerül a modell technikai háttere, például a 33 milliárd paraméterből álló kevert szakértői architektúrája, amelyből tokenenként csak 3 milliárd paraméter aktív. Megjelennek a modell főbb újításai, mint a natív logikai képességek, hosszú kontextusablak és speciális támogatás ügynök-alapú, hosszabb távú kódolási feladatokhoz.
Az első gyakorlati teszt során egy hibákkal szándékosan teletűzdelt, frontenden és backenden egyaránt meghibásított call center alkalmazás funkcióit állítják helyre az ügynök segítségével. A folyamat során szó esik a közzétett benchmarking eredményekről is, amelyek részben alátámasztják, részben árnyalják a modell képességeit.
A következő feladatban komplex, animált HTML-szimuláció generálását kérik a modelltől, amelynek során drónnézetből lezuhanó labdák okozta vizuális effektet kell létrehoznia – ez a teszt a fizikai animáció és vizuális szimuláció kombinációját követeli meg.
Végül a többnyelvűség tesztje következik: egy Go nyelven írt konzisztens programrészletet kell a modellnek több eltérő programozási nyelvre, például C, C++, Java, Rust, Ruby, PHP, JavaScript és TypeScript nyelvekre fordítania. A koncepciók, mint a goroutine-ok, slice-ok vagy generikus típusok nehézségeit külön kiemelik, hiszen ezek minden célnyelvben eltérő formát öltenek.
Külön érdekesség, hogy a Poolside saját modellgyár platformját, saját optimalizáló algoritmusait és egy új, kifejezetten mesterséges intelligencia modellekhez szabott licencet (Open MDW 1.1) használ a fejlesztéshez. Felszínre kerülnek az új architektúra teljesítménybeli kompromisszumai, valamint az, miként sikerülhet egy komplex ügynöki modellnek helytállni a valós kódolási feladatokban.









