Két új generációs képgeneráló mesterséges intelligencia, a GPT Image 1.5 és a Nano Banana Pro került összehasonlításra ebben a mélyreható tesztben. A készítő öt kulcskategóriában vetette össze őket: szövegrenderelés minősége, szerkesztési precizitás, összetett kompozíciók kezelése, sebesség, és tényszerű pontosság. Mindkét modell azt állítja magáról, hogy kiemelkedő eredményeket produkál, de a valós használat során jelentős különbségek derülnek ki.
A szövegek generálásánál kiélezett helyzetekkel találkozhatunk, például sűrű blokkokban vagy többnyelvű plakátokon. Az érdekes kérdés az, hogy melyik képes pontosabban olvasható és vizuálisan összetett szövegeket alkotni. A szerkesztési precizitás tesztjében pedig az derül ki, mennyire tudnak a modellek egy adott képelem változtatásakor más részleteket hibátlanul megőrizni, különösen az arcvonások vagy tárgyak pontos méretének visszaadásakor.
Kiemelt téma a referenciaképekkel történő komplex képszerkesztés, amikor például több forráskép egyesítésére vagy objektumok eltávolítására van szükség. Mindkét AI sajátos stratégiával közelíti meg a feladatokat: az egyik inkább az eredeti kompozíciók és arcok megőrzésére fókuszál, míg a másik a fizikai realizmus és a tárgyak méretarányának visszaadása mellett teszi le a voksát.
Az összetett jelenetek, például zsúfolt piac vagy csapatfotó generálása újabb kérdéseket vet fel: melyik modell képes helyesen pozícionálni különböző elemeket, és mennyire valósághűek az eredmények? A gyorsaság is fókuszba kerül, hiszen fontos, mennyi idő alatt készül el egy-egy kép, főleg amikor párhuzamosan több prompt fut.
A tényszerű pontosság, különösen infografikák vagy térképek esetében, új dimenzióval bővül a keresési alapú grounding révén. Az egyik modell ugyanis képes külső forrásokból valós adatokat keresni, így hitelesebb információtartalmat tud beépíteni a képekbe. Ezek a tesztek izgalmas kérdéseket vetnek fel arról, mire lesznek képesek a jövő mesterséges intelligencia képmodellei a valós használat során.










