Egy új kínai nyelvi modell, a Mini CPM 4.1 kerül bemutatásra, amely különösen gyors és hatékony működéséről híres, sőt, képes akár mobiltelefonon vagy laptopon is futni, nem csupán dedikált szervereken. Fejlesztői teljesen újragondolták az attention mechanizmus működését, lehetővé téve, hogy egy token a többitől függetlenül, kiemelkedően gyorsan dolgozzon.
A bemutatóban szó esik arról, hogy az OpenBM most saját CUDA implementációval is előállt, amely lehetővé teszi, hogy Nvidia GPU-kon maximális hatékonysággal, minimális erőforrásigénnyel történjen a modell futtatása. A telepítés lépéseit és a szükséges környezetet is részletesen ismertetik.
Külön figyelmet kap, hogy a CPM.CU nevű inference engine számos optimalizációs technikát használ: ritka attention kernel, kvantált rétegek, spekulatív mintavételezés, memória újrafelhasználás, sőt CUDA grafok is segítik a gyorsaságot. Több prompttal is tesztelik a modellt, példákat mutatnak kódgenerálásra, VRAM-fogyasztás ellenőrzésére és különböző üzemmódokkal is kísérleteznek.
Felmerül az a kérdés is, mennyire alkalmazkodó a modell különböző GPU-khoz, és hogy hogyan teljesít valóban többnyelvű (multilingual) feladatokban. A tesztelés során szóba kerülnek a korlátai is, például hogy inkább angol–kínai feladatokban erős, és nem minden funkciója működik tökéletesen telepítés után, hacsak a szükséges csomagok nem elérhetők.