A
A
  • Angol
  • Magyar
  • 5 perc

AI és vizuális gondolkodás: meddig juthatnak a gépek a kockateszten?

A vezető mesterségesintelligencia-modellek vizuális feladatokon mutatják meg erősségeiket és hiányosságaikat: vajon meddig jutott a gépi észlelés, és hol rekednek el a legnehezebb kihívásoknál?

Az emberi vizuális és térbeli gondolkodás képességét állítja szembe a mesterséges intelligenciával egy hétköznapi, de mégis kihívást jelentő feladaton keresztül: hány kis kocka hiányzik egy adott téglatestből, hogy teljes egésszé váljon?

Több vezető AI-modell – többek között Gemini, Grock, Claude és az OpenAI 03/04 modellek – próbálja megfejteni a kockák elrendezését és a hiányzó elemek számát, mindegyik változó sikerrel és pontossággal. Felmerül a kérdés, mennyire képesek ezek a modellek vizuális és térbeli feladatok helyes értelmezésére, és hol hibáznak a leginkább.

A példán keresztül kiderül, hogy az AI jelenlegi állása milyen kihívásokkal néz szembe a vizuális és visuo-térbeli gondolkodás terén. Az is felmerül, hogy szükség lenne-e valamiféle új benchmarkra vagy mércére ezekhez a feladatokhoz, hiszen az emberi logika és a gépi gondolkodás gyakran másutt akad el.

Szó esik arról, hogyan tanulnak a gyerekek is hasonló képességeket például LEGO-készletekkel, és ezzel húz párhuzamot a videó készítője, elgondolkodtatva a nézőt a mesterséges intelligencia fejlődésének jövőbeli lehetőségeiről és akadályairól.