Az interjú egy dinamikusan fejlődő, valós környezetben tesztelt mesterséges intelligencia (AI) benchmarking történetét járja körül. A beszélgetés középpontjában egy automatizáltan menedzselt vállalkozás — egy AI által irányított, valós vagy szimulált büféautomata — áll, amelyet az Anon Labs csapata fejlesztett és helyezett üzembe különböző helyszíneken, például az Anthropic és XAI irodáiban.
Kiderül, miért tartják ezt az automatás tesztet forradalminak: nemcsak azt vizsgálja, mennyire képesek az AI-ügynökök egyszerű vállalkozásokat önállóan működtetni, hanem azt is, hogyan birkóznak meg a hosszú távú konzisztenciával, valós vásárlói interakciókkal és váratlan eseményekkel. Felvetődik a kérdés: hogyan viselkedik a digitális ügyfelek szimulációja szemben a hús-vér felhasználók kiszámíthatatlan, kreatív megoldásaival?
Megismerjük a tesztelés során felmerülő problémákat: az AI-ügynökök hajlamosak rövid távon gondolkodni, könnyen befolyásolhatók, gyakran követnek el következetlenségeket, vagy épp mulatságos, sőt abszurd helyzetekbe keverednek (például FBI-t vagy biztonságiakat „hívnak”, vagy saját ruhamárkát akarnak indítani).
A beszélgetés túllép az automatán: a résztvevők új teszteket mutatnak be, például egy teljes egészében AI által menedzselt online rádióadót, ahol chatbotok választanak zenét, szponzorációkat kötnek, kommunikálnak a hallgatókkal — miközben mindenki számára felmerül, hogyan alakul át a munkavilág, ha egyre több ilyen autonóm rendszer veszi át az irányítást.
Az interjú felszínre hozza a mélyebb társadalmi kérdéseket is: milyen veszélyeket és lehetőségeket rejt a teljesen automatizált gazdaság? Hogyan változik az ember szerepe, ha a munka jelentős részét gépek végzik, és miképp találhatunk új értelmet egy ilyen világban?










