A
A
  • Angol
  • Magyar
  • 14 perc

Grok 4: Miért nem váltja be a hozzá fűzött reményeket?

A Grok 4 mesterséges intelligencia modell demonstrált teljesítménye jelentősen eltér a gyakorlati felhasználói tapasztalatoktól, számos kérdést vetve fel az értékelési és fejlesztési folyamatokkal kapcsolatban.

Különböző gépi tanulásos modellek értékelésekor gyakran felmerülő probléma, hogy a fejlesztők túlságosan az elért pontszámokra koncentrálnak, és emiatt a modellek a tesztekre „túltanulnak”, miközben a valós életbeli teljesítményük elmarad a várttól. Ebben az összefoglalóban a Grok 4 nevű mesterséges intelligencia modellt vizsgálják meg, amely ugyan számos értékelő listán az első helyen szerepel, a felhasználók valódi rangsorában azonban jelentősen hátrébb van.

Az elvégzett kísérletek során a Grok 4-et összehasonlítják más csúcsmodellekkel, köztük az Opus 4-gyel és az O3-mal. Különféle gyakorlati feladatokon tesztelik őket – például összefoglalók írása, adatkinyerés pénzügyi dokumentumokból, Python hibák javítása vagy összetett jogosultságkezelési listák készítése során. Ezek a feladatok jól modellezik a tényleges felhasználási igényeket, és rávilágítanak a modellek valós képességeire.

Érdekes kérdéseket vet fel, hogy milyen mértékben befolyásolják a PR-szempontok a fejlesztői döntéseket, illetve hogy mennyire lehet megbízni az önmagukról alkotott narratívákban. A videó többek között arra is rákérdez, mi az oka annak, hogy egyes modellek, mint például a Grok 4, bizonyos típusú kérdésekre következetesen rosszabbul teljesítenek, illetve hogy szükség van-e átláthatóbb értékelési rendszerekre a mesterséges intelligencia-fejlesztés területén.

Felmerül a kérdés, hogyan lehet hiteles módon felmérni egy mesterséges intelligencia gyakorlati alkalmazhatóságát, és mennyire torzíthatják az értékelési rendszerek a piacot, ha cégek kizárólag a teszteredményekre optimalizálnak. Vajon milyen irányt kellene vennie az MI fejlesztésének ahhoz, hogy valóban megbízható, sokoldalúan használható rendszerek szülessenek?