Sonnet 5 és Ornith 35B: AI modellek harca hibajavításban és kreativitásban ✦ UMA

Két fejlett mesterséges intelligencia kódoló modell – a felhőalapú Sonnet 5 és a helyben futtatható Ornith 35B – képességeit tesztelték hibajavításban és kreatív feladatokban.

Ebben az összehasonlító tesztben két mesterséges intelligencia kódoló modellt helyeznek górcső alá: az Anthropic által fejlesztett, ügynöki képességekkel rendelkező Claude Sonnet 5-öt, illetve a Deep Reinforce nyílt forráskódú modelljét, az Ornith 35B-t. Külön érdekessége, hogy míg a Sonnet 5 felhőalapú, addig az Ornith helyben futtatható, így saját gépen is kipróbálható.

A videóban egy valós hívásközpont-alkalmazás hibáinak feltárása és kijavítása adja az egyik teszt alapját. A modelleknek önállóan, részletes instrukciók nélkül kell megtalálniuk a beépített, rejtett hibákat – a kihívások között akadnak félrevezető megjegyzések is, amelyek a kritikus gondolkodásukat tesztelik.

Ezt követően egy kreatívabb feladat, egy teljesen önállóan generált, animált vasúti kereszteződés-szimuláció megalkotása következik. Melyik modell képes megbirkózni a komplex vizuális és logikai elemekkel? Milyen különbségek derülnek ki a pályaudvar, vonatok, napszak ciklus vagy az ütközések kezelésében?

A kérdés, amit a bemutató felvet: mennyire tud egy helyi, ingyenesen futtatható modell versenyezni az aktuális csúcs, fizetős mesterséges intelligenciákkal, és mire érdemes figyelniük a fejlesztőknek, ha saját rendszeren, privát keretek között akarnak AI-t használni?

Sonnet 5 és Ornith 35B: AI modellek harca hibajavításban és kreativitásban

Hasonló tartalmak:

Változások a tech világban: bezárások, áremelések és a Valve tervei

Fable 5 és Claude Sonnet 5 visszatér: Az MI-modellek hozzáférési dilemmái és etikai kérdései

Ázsiai IPO-piacok: kihívások és lehetőségek három ország tőkepiacain

Az ügynöki operációs rendszerek belső világa és gyakorlati alkalmazásaik

Politika, szabályozás és tech a digitális korban: AI exportkorlátozások és a kriptoadózás kérdései