Megérkezett a Google Gemini 3 mesterséges intelligencia modell, amelyre sokan vártak, és most új funkciókat is kínál. A fejlesztések közé tartozik többek között a multimodális feldolgozás, amely nemcsak szöveg, hanem kép, videó és egyéb adatok megértésére és értelmezésére is képes.
Az újdonságok között szerepel a Gemini Agent, amely kutatási feladatokat összekapcsolhat a Google-fiókon belüli szolgáltatásokkal, például a Gmaillel és a naptárral, és akár élő böngészést is végezhet. Kiemelt figyelmet kap a multimodális gondolkodás mérése, valamint annak vizsgálata, hogy a modell mennyire képes kreatív szövegalkotásra vagy kódgenerálásra.
A videó rávilágít arra is, hogy a gépi tanulásos modellek fejlődése mennyire gyors: alig egy év alatt jelentős előrelépést értek el sikerességükben. Emellett bemutatják, hogyan segíthet a Gemini 3 a videojátékokban, kódolásban és kreatív írásban, valamint milyen interaktív felhasználói felületek jelennek meg az új dinamikus prezentációs lehetőségekkel.
Felmerülnek olyan kérdések, mint például mennyire számítanak a benchmark tesztek, hogyan fejlődnek az ügynök funkciók, és hol lehetnek még további kitörési pontok vagy korlátok ezekben az új AI rendszerekben.










