Három világszínvonalú mesterséges intelligencia modell gondolkodási képességeit hasonlítja össze ez az átfogó teszt, ahol mindegyik modellt ugyanazzal a feladatsorral vizsgáztatják, mindenféle utólagos igazítás vagy újrapróbálkozás nélkül.
Az első részben különböző, való alkalmazásokat igénylő programozási kihívást adnak a Claude Opus 4.7, DeepSeek V4 Pro és Qwen 3.6 Max modelleknek. Megjelenik, hogyan különböznek egymástól ezek a rendszerek filozófiájukban, képességeikben és abban, ahogyan az utasításokat kezelik. A kódgenerálás folyamatát lépésről lépésre követheti a néző.
A működő alkalmazásokat egy virtuális környezetben is letesztelik, ahol kiderül például, mennyire követik jól a parancsokat, illetve hogy a használati élmény mely részleteiben tér el a három modellnél – legyen szó például regisztrációról, tranzakciók rögzítéséről vagy a vizuális elemekről.
A következő kihívásban extrém túlélési helyzetet modelleznek: a felhasználót mindenéből kifogyva, útlevél és pénzeszközök nélkül hagyják egy idegen országban, a cél pedig, hogy 48 órán belül eljusson egy másik kontinensre. Tengernyi realista részlet – helyi címekkel, ajánlott intézményekkel, jogszabályokra való hivatkozással, akut kihívásokkal és eshetőségi tervekkel – tárul fel az MI válaszaiban.
Változatos témák kerülnek elő, mint például a modellek valós helyzetekben való alkalmazhatósága, a gyakorlati lépések pontossága, kreatív gondolkodás, stratégiaalkotás, valamint az emberi gondolkodással szembeni előnyök és hiányosságok.









