A Gemini 2.5 Pro megjelenése után néhány nappal a közösség részletesebben is megismerhette, hogyan teljesít az új generációs chatbot különböző mérési pontokon. Nemcsak a benchmarkok számai kerülnek előtérbe, hanem az is, miként képes a modell összetett logikai feladatokban rejtett összefüggéseket felismerni, akár egy hosszú sci-fi történet során is.
Érdekes kérdés, hogy a különböző mesterséges intelligencia modellek mennyiben képesek megőrizni relevanciájukat, amikor különféle szövegek, kódok vagy akár videós tartalmak feldolgozásáról van szó. Szóba kerül, hogy a Gemini 2.5 Pro a Google AI Studio platformján friss tudásbázissal dolgozik, míg más modellek eltérő ismereti időpontot használnak.
Az összehasonlítás kitér programozói mérőszámokra is, ahol különféle benchmarkok, például LiveBench, Live Codebench V5 vagy Swebench Verified segítségével mérik a modellek kódgenerálási és hibajavítási képességeit. Felmerül, hogy mi lehet a teljesítménykülönbségek oka, valós életből származó problémák vagy versenykódolási feladatok esetén.
A videó több területen vizsgálja, hogy egyes modellek, például Gemini 2.5 vagy Claude 3.7 Sonnet, mennyire képesek előre gondolkodni, illetve hogyan reagálnak trükkösebb, logikát igénylő kérdésekre. Megjelenik a gépi gondolkodás lehetséges univerzalitása, a különböző nyelveken keresztüli absztrakt koncepciók feldolgozására való képesség is.
Végül a kritikus kérdések egyike: vajon meddig marad a csúcson egy-egy modell, amikor rohamosan fejlődik a piacon a mesterséges intelligencia? Szóba kerül az is, miként alkalmazkodhatunk, ha az egyes chatbotok különböző erősségeket és hiányosságokat mutatnak fel a valós feladatok során.