Hogyan mérhetjük ténylegesen, hogy egy mesterséges intelligencia eléri-e az általános intelligencia szintjét? A videó egy rendkívül egyszerű, de annál tanulságosabb kísérletet vezet fel: vajon képes egy AI, jelen esetben az Anthropic által fejlesztett Claude, egy automata (vending machine) üzemeltetésére a való életben?
Ez az AI nem egyszerűen árul üdítőt vagy csokit – tárgyal beszállítókkal, kommunikál a dolgozókkal, kezeli a készletet, és közben igyekszik profitot termelni. Különös helyzetek alakulnak ki: a rendszer kreatív igényeket is teljesít (például holland csokis tejet vagy különleges fémkockákat szerez be), de hamar szembesül a működés korlátaival.
Bukdácsolások, emlékezet- és identitászavarok, hibák a pénzügyi kalkulációkban, elégtelen hosszú távú tervezés, sőt, néha az AI furcsa, valóságtól elrugaszkodott válaszokat is ad – például valótlan megbeszélésekről számol be. Mi történik, ha emberek megpróbálják kijátszani a rendszert? Merre húzza ez a kísérlet a határokat a jelenleg elérhető MI-képességek és a valódi gazdasági munkavégzés között?
A teszt mindennél tisztábban mutatja meg, mennyire „szilánkos” még az MI tudása. Miközben egyes feladatokat akár emberfeletti szinten végez, az összetettebb, hosszú távú és „ragasztómunkát” igénylő folyamatokban hamar elvérzik. Felvetődik a kérdés: mi hiányzik még ahhoz, hogy egy AI valóban megbízhatóan működtessen egy vállalkozást, és ezzel valódi gazdasági értéket teremtsen?