Különös figyelem irányul a MiniCPM-o 4.5 nevű, kilencmilliárd paraméterrel rendelkező multimodális modellre, amely a bemutatásakor nagy várakozásokat keltett. A fejlesztők folyamatosan finomítják a telepítési instrukciókat, ezért néhány funkciót jelenleg csak online demóban lehet kipróbálni, például a hangalapú interakciókat.
A videó betekintést ad a MiniCPM-o 4.5 architektúrájába, amely a SigLIP 2-re épül a képfeldolgozáshoz, audio oldalon a Whisper Medium, hangszintézisben pedig a Cozy Voice 2 megoldásait használja, a nyelvi motor alapját pedig a Quen 38B adja. Ezek az összetevők lehetővé teszik a teljes duplex kommunikációt, vagyis egyszerre képesek videó- és hangbemenet feldolgozására, valamint szöveg és beszéd generálására.
Az élő tesztek során a modell változatos kihívásokkal találja szemben magát: a képfelismerés vagy az optikai karakterfelismerés (OCR) vegyes eredményeket hoz, a videóelemzésnél viszont pozitívabbak a tapasztalatok, például animációs tartalom leírásánál.
Felkeltik az érdeklődést a teljesítményhez kapcsolódó kérdések is, például mennyire közelíti meg a MiniCPM-o 4.5 a jelenlegi nagy szereplők, mint a GPT-4o vagy a Gemini 2.5 flash szintjét, mi az erőssége képfeldolgozásban, és hol akad el a komplex kémiai struktúrák vagy kézírás leolvasásánál. Ugyanakkor technikai hiányosságok – például a lokális telepítés nehézségei – szintén előtérbe kerülnek.







