Az Ernie 5 modellt a Baidu World 2025 eseményen mutatták be mint egy fejlett, natív módon multimodális mesterséges intelligenciát. Kiemelt érdekessége, hogy egyszerre képes szöveget előállítani és megérteni, de ezen túl hangot, képet, sőt videót is képes kezelni, így új távlatokat nyit a gépi tanulásban.
A bemutató során a modell többféle példán keresztül kerül kipróbálásra: generált egy interaktív, valósághű monitoring dashboardot, majd hangalapú promptot is értelmezett, ahol társadalmi és humoros szituációkra adott részletes választ. Ezeken keresztül felmerülnek olyan kérdések, mint hogy mennyire képes az AI megérteni a valóság összetett társadalmi dinamikáit, vagy hogyan kezeli a különböző modalitások kombinációját.
Szó esik az Ernie 5 hatékonyságáról, többek között hatalmas paraméterszámáról és a speciális architektúráról, melynek köszönhetően mind a szöveges, az audió és a vizuális benchmarkokon is kiemelkedő eredményeket mutat. Az innovatív tréning- és inferencia-megoldások érintik a multimodális encoder-decoupled tréninget, az adaptív memória offload technológiát, illetve a gyors és költséghatékony végrehajtást. Ezzel együtt új távlatokat nyitnak a felhasználói élményben és AI-alapú alkalmazások fejlesztésében.
A Baidu teljes AI-ökoszisztémája, így a Genflow 3, a digital humans, illetve a Miodu 2 is említésre kerülnek, amelyek azt a kérdést vetik fel, hogy merre halad a globális gépi intelligencia fejlesztése, mit hozhat a jövő a mindennapi felhasználók számára, illetve hogyan alakulhat át a keresés vagy az önjáró taxi szolgáltatás az AI korában.









