Egy alapos és összehasonlító jellegű bemutató keretében a legújabb OpenAI képalkotó modellt, a „40 image gen”-t tesztelik, több más, frissen megjelent vagy hamarosan érkező képgenerátorral összevetve, mint a Reev, az Imagen 3 vagy a Midjourney. Meglepő részletességgel elemzik, hogy mennyiben képesek ezek a modellek összetett, logikai és vizuális kihívásokat jelentő feladatokat értelmezni: például hogyan rajzolnak meg egy háromlábú elefántot, vagy hogyan jelenítik meg a „hold your horses” (légy türelmes) idiomatikus kifejezést képeken keresztül.
Különféle próbák tárják fel az egyes rendszerek erősségeit és hibáit, legyen szó konkrét számú objektum ábrázolásáról, élethű árnyékokról, helyszínek felismeréséről vagy éppen a szöveges utasításokban rejlő metaforák megértéséről. Foglalkoznak azzal is, hogy a különböző modellek mennyire képesek kreatív igényeket kielégíteni, mint például egy adott stílusú indexkép 3D-s változatának elkészítése vagy életszakaszokat ábrázoló infografika készítése.
Szó esik a szerkesztési lehetőségekről is: megvizsgálják, mennyire valósítható meg egy-egy alak vagy jellemző módosítása, például szemüveg hozzáadása figurákhoz, vagy az életkor megváltoztatása egy képen. Felmerül, hogy a modellek képesek-e az elvárásoknak megfelelő „keresd meg” típusú feladványképek előállítására, például középkori piactéren elrejtett időutazó, vagy tengerparti kalóz ábrázolására.
Tágabb értelemben a bemutató a mesterséges intelligencián alapuló képgenerálás jelenlegi szintjéről, a különböző modellek közti logikai és vizuális különbségekről, valamint az AI-jal kapcsolatos biztonsági és szűrési kérdésekről is gondolkodásra invitál.