Ebben az összehasonlító tesztben két mesterséges intelligencia kódoló modellt helyeznek górcső alá: az Anthropic által fejlesztett, ügynöki képességekkel rendelkező Claude Sonnet 5-öt, illetve a Deep Reinforce nyílt forráskódú modelljét, az Ornith 35B-t. Külön érdekessége, hogy míg a Sonnet 5 felhőalapú, addig az Ornith helyben futtatható, így saját gépen is kipróbálható.
A videóban egy valós hívásközpont-alkalmazás hibáinak feltárása és kijavítása adja az egyik teszt alapját. A modelleknek önállóan, részletes instrukciók nélkül kell megtalálniuk a beépített, rejtett hibákat – a kihívások között akadnak félrevezető megjegyzések is, amelyek a kritikus gondolkodásukat tesztelik.
Ezt követően egy kreatívabb feladat, egy teljesen önállóan generált, animált vasúti kereszteződés-szimuláció megalkotása következik. Melyik modell képes megbirkózni a komplex vizuális és logikai elemekkel? Milyen különbségek derülnek ki a pályaudvar, vonatok, napszak ciklus vagy az ütközések kezelésében?
A kérdés, amit a bemutató felvet: mennyire tud egy helyi, ingyenesen futtatható modell versenyezni az aktuális csúcs, fizetős mesterséges intelligenciákkal, és mire érdemes figyelniük a fejlesztőknek, ha saját rendszeren, privát keretek között akarnak AI-t használni?










