Az OpenBMB új fejlesztése, a MiniCPM Vision 4.6, egy 1,3 milliárd paraméterrel rendelkező, többmódú látásmodell, amely képes képeket és videókat értelmezni, valamint azokról következtetéseket levonni. Különlegessége, hogy kifejezetten élvonalbeli (edge) eszközökre, például telefonokra, drónokra vagy akár helyben futtatható rendszerekre tervezték.
A technológia hatékonyságát korábbi, nagyobb modellekkel összevetve demonstrálják a mérések, amelyek alapján még kisebb mérete ellenére is kiemelkedő eredményt nyújt dokumentumfelismerési, OCR, valamint grounding feladatokban. Különösen érdekes a vizuális token tömörítés, amely rugalmasan engedi váltakozni a sebesség és részletesség között.
Az installáció során felmerül a kérdés, hogy a modell VRAM-használata időnként kiugróan magas lehet, különösen nagyobb képek vagy bonyolultabb feladatok esetén, így a hatékonyság és az erőforrásigény közötti arányosság további optimalizálása kulcskérdés. Megfigyelhető, hogy a feldolgozási idő meghosszabbodik bonyolultabb inputoknál.
Tesztelés alatt a modell képességeit kézzel írt leveleken, pénzügyi kimutatásokon és videók leírásán is vizsgálják; különösen pontos a formázás és írásjelek reprodukálásában, továbbá jól érzékeli a videók jelentését és tartalmi elemeit is, például állatok felismerése vagy környezet leírása esetén.









