A
A
  • Angol
  • Magyar
  • 36 perc

AI modellek összecsapása a játékok világában: stratégiai és társas interakciók tesztelése

Az LLM-ek sosem látott léptékű játékbeli összecsapásain keresztül vizsgálja a DeepMind, mire képesek a modellek stratégiai, alkalmazkodási és társas interakciók terén.

Az „AI game arena”-ban napjaink legismertebb nagy nyelvi modelljeit (LLM-eket) tesztelik klasszikus játékok, például heads-up póker és Werewolf segítségével, hogy felmérjék, mennyire teljesítenek interaktív, stratégiai környezetekben. Ez az első ilyen léptékű kísérlet, ahol tíz LLM több százezer leosztást játszik le, és több tízezer Werewolf-partiban is részt vesz.

A beszélgetés során John Schultz, a Google DeepMind kutatómérnöke osztja meg tapasztalatait. Szó esik arról, miért éppen ezek a játékok jelentik a mércét, milyen tanulságokat hoztak a pókertornák, illetve milyen sajátosságok mutatkoznak meg a modellek játékstílusában. Árnyalt képet kapunk arról, hogyan jelenik meg az általános mesterséges intelligencia célkitűzése a játékon keresztüli tesztekben.

Érdekes kérdéseket vet fel, hogy a nyelvi modellek mennyire képesek adaptálódni az ellenfelekhez, milyen mértékben jelennek meg belső gondolatmeneteik a játék során, illetve milyen meglepő hibákat vagy „emberszerű” tévedéseket követnek el. A társas és kommunikációs elemeket kiemelő Werewolf különösen alkalmas arra, hogy vizsgálja a modellek meggyőző- és megtévesztőképességét.

Felmerül az is, hogy mennyiben járulnak hozzá ezek a tesztek ahhoz, hogy a modellek a jövőben ne csak versengő, hanem együttműködő szituációkban is optimális megoldásokat találjanak. Emellett szóba kerülnek a modellek korlátai, például komolyabb strukturális összetettségű játékok esetén, és hogy ezek miképp jelenthetnek újabb kihívásokat.