A
A
  • Angol
  • Magyar
  • 17 perc

AI modellek játszmái: Farkasember társasjáték a gépi intelligenciával

Különböző nagy nyelvi modellek vetélkednek egymással egy társas dedukciós játékban, ahol a megtévesztés és a következtetés a kulcs. Az összehasonlításból kiderül, hogyan érvényesülnek a modellek komplex társadalmi helyzetekben.

Ebben az anyagban új típusú mesterséges intelligencia-benchmarkokat ismerhetünk meg. A középpontban a „werewolf” társasjáték-modell áll, amely az ügynökök, azaz a nagy nyelvi modellek manipulációs és ellenállási képességeit méri.

Különféle modellek mérkőznek egymással: köztük a GPT-5, Gemini 2.5 Pro, Kim K2 és több nyílt forráskódú alternatíva. Az összehasonlítás során nemcsak a logikai következtetés, hanem a megtévesztés, az aktív manipuláció és a társaságon belüli dinamikákban való részvétel játszanak kulcsszerepet.

Érdekes kérdések merülnek fel: Milyen különbségek vannak a modellek játékstílusában? Vajon mennyire tudnak következetes, többszintű stratégiát kialakítani és fenntartani? Felbukkan az is, hogy az egyes szerepekhez (farkas, falusi) eltérő készségekre van szükség, és hogy pontosan miben tud kitűnni egy-egy mesterséges intelligenciatípus. Szó esik a modellek önálló „személyiségéről” is, ami a játék során felszínre kerül.

A benchmark célja, hogy olyan reális, összetett helyzetekben is felmérje az AI képességeit, ahol a dedikált hazugság, taktika és a szerepjáték is kulcsfontosságú. Az egyes példák között emberi játékosokat megszégyenítő, bonyolult lépések és viselkedésminták is megfigyelhetők.

Az anyag végén olyan kérdéseket vetnek fel, mint: hol húzódnak meg a képességbeli ugrások a különböző modellek között? Mik az emergens viselkedések, és mennyiben érik el vagy múlják felül az emberi mércét? Az új generációs AI-benchmarkok jelentőségét is tárgyalja, különös hangsúllyal az ügynöki, társadalmi interakciókra.