Mesterséges intelligenciák csatája zajlik a Diplomacy nevű stratégiai társasjátékban, ahol a cél az egész kontinens elfoglalása, miközben a résztvevőknek szövetségeket kell kötniük, és el kell árulniuk egymást. Ebben a különleges projektben különféle új generációs nyelvi modellek, mint az OpenAI 03, Claude, Gemini, DeepSeek és mások mérkőznek meg egymással élőben, az eredményeket pedig folyamatosan rögzítik és elemzik.
Az izgalmas kísérlet fő kérdése, hogy ezek az MI-modellek mennyire képesek a megtévesztésre, taktikázásra vagy akár árulásra, ha a győzelem forog kockán. Kiderülnek az egyes modellek sajátosságai: némelyikük kiváló stratéga, mások inkább az együttműködést keresik, vagy éppen látványos árulásokra vetemednek.
A videó betekintést nyújt abba, hogyan épülnek fel ezek az MI-ügynökök, és milyen mechanizmusok segítik őket a tárgyalásban, szövetség- vagy stratégiaépítésben. Érdekes kérdéseket vet fel az AI-k biztonságával és alkalmazhatóságával kapcsolatban: vajon hazudhatnak-e, becsaphatják-e a felhasználókat ezek a rendszerek valós helyzetekben? Külön figyelmet érdemel a kísérlet elemző eszköztára, amely részletesen vizsgálja az adott játékban történt árulásokat, együttműködéseket és stratégiai hibákat.
A projekt továbbá bemutatja, milyen előnyös észleléseket lehet nyerni a modellek versenyeztetéséből, hogyan lehet élőben követni az eseményeket, és mi teszi ezt a benchmarkot alkalmasabbá az MI-k fejlettségének mérésére, mint a hagyományos tesztek.