Az elmúlt héten a mesterséges intelligencia hírei számos izgalmas fejlesztést és piaci mozgást tártak fel. A Mistral bemutatta legújabb érvelésre képes modelljét, amely lenyűgöző sebességgel dolgozik, és nyílt forráskódú kisebb változata már most elérhető és kipróbálható otthoni gépeken is. Az összevetések során szembetűnő a gyorsasága és a többnyelvűség terén elért eredményei.
Jelentős előrelépés történt a szöveg-beszéd modellek világában is: az Eleven Labs új V3 alfája minden eddiginél érzelmesebb és kifejezőbb műhangot kínál, miközben az OpenAI egyre emberibb beszédstílust céloz meg az új Voice Mode fejlesztésével. Ezek a modellek már a beszédben előforduló természetes töltelékszavakat és szüneteket is megjelenítik.
Frissült a rendkívül népszerű Gemini 2.5 Pro is, amely tovább erősíti vezető pozícióját a kódolási feladatokban és különböző benchmarkokon. Ezzel párhuzamosan a Google text-to-video modellje is gyorsabb és olcsóbb verzióban érhető el, ami új távlatokat nyithat a generatív videóalkotásban.
A Meta látványos befektetést hajtott végre: 14 milliárd dollárért 49%-os részesedést szerzett a Scale AI vállalatban, és új AI szuperintelligencia csapatot épít, miközben vezető top szakembereket keres. A piac egyre kiélezettebb versenyt mutat a tehetségekért, a cégvezetők személyesen tárgyalnak rekordösszegű fizetésekről.
Új AI-natív böngésző érkezik DIA néven, amely új módokon kínálja a böngészési élményt mesterséges intelligenciával támogatva – kérdés, hogy mennyire ad hozzá újat a már elérhető funkciókhoz képest. Eközben a Black Forest Labs legújabb Flux 1 Context Max modellje nyílt forráskódú szöveg-kép átalakítóként sokak figyelmét felkeltette egyedülálló képminőségével és teljesítményével.