Az emberi vizuális és térbeli gondolkodás képességét állítja szembe a mesterséges intelligenciával egy hétköznapi, de mégis kihívást jelentő feladaton keresztül: hány kis kocka hiányzik egy adott téglatestből, hogy teljes egésszé váljon?
Több vezető AI-modell – többek között Gemini, Grock, Claude és az OpenAI 03/04 modellek – próbálja megfejteni a kockák elrendezését és a hiányzó elemek számát, mindegyik változó sikerrel és pontossággal. Felmerül a kérdés, mennyire képesek ezek a modellek vizuális és térbeli feladatok helyes értelmezésére, és hol hibáznak a leginkább.
A példán keresztül kiderül, hogy az AI jelenlegi állása milyen kihívásokkal néz szembe a vizuális és visuo-térbeli gondolkodás terén. Az is felmerül, hogy szükség lenne-e valamiféle új benchmarkra vagy mércére ezekhez a feladatokhoz, hiszen az emberi logika és a gépi gondolkodás gyakran másutt akad el.
Szó esik arról, hogyan tanulnak a gyerekek is hasonló képességeket például LEGO-készletekkel, és ezzel húz párhuzamot a videó készítője, elgondolkodtatva a nézőt a mesterséges intelligencia fejlődésének jövőbeli lehetőségeiről és akadályairól.