A
A
  • Angol
  • Magyar
  • 11 perc

MiniCPM-o 4.5: a multimodális modell első benyomásai és kihívásai

A videó bemutatja a MiniCPM-o 4.5 úttörő multimodális modell képességeit, kiemelve az architektúra erősségeit, az élő demók tanulságait és a fejlesztés aktuális kihívásait.

Különös figyelem irányul a MiniCPM-o 4.5 nevű, kilencmilliárd paraméterrel rendelkező multimodális modellre, amely a bemutatásakor nagy várakozásokat keltett. A fejlesztők folyamatosan finomítják a telepítési instrukciókat, ezért néhány funkciót jelenleg csak online demóban lehet kipróbálni, például a hangalapú interakciókat.

A videó betekintést ad a MiniCPM-o 4.5 architektúrájába, amely a SigLIP 2-re épül a képfeldolgozáshoz, audio oldalon a Whisper Medium, hangszintézisben pedig a Cozy Voice 2 megoldásait használja, a nyelvi motor alapját pedig a Quen 38B adja. Ezek az összetevők lehetővé teszik a teljes duplex kommunikációt, vagyis egyszerre képesek videó- és hangbemenet feldolgozására, valamint szöveg és beszéd generálására.

Az élő tesztek során a modell változatos kihívásokkal találja szemben magát: a képfelismerés vagy az optikai karakterfelismerés (OCR) vegyes eredményeket hoz, a videóelemzésnél viszont pozitívabbak a tapasztalatok, például animációs tartalom leírásánál.

Felkeltik az érdeklődést a teljesítményhez kapcsolódó kérdések is, például mennyire közelíti meg a MiniCPM-o 4.5 a jelenlegi nagy szereplők, mint a GPT-4o vagy a Gemini 2.5 flash szintjét, mi az erőssége képfeldolgozásban, és hol akad el a komplex kémiai struktúrák vagy kézírás leolvasásánál. Ugyanakkor technikai hiányosságok – például a lokális telepítés nehézségei – szintén előtérbe kerülnek.