Bemutatásra kerül a Qwen3.5 4B, egy 4 milliárd paraméteres, multimodális mesterségesintelligencia-modell, amelyet az Alibaba fejlesztett ki. A modell fő érdekessége, hogy lokálisan is futtatható, képes gondolkodni, programkódot írni, képeket és videókat értelmezni.
Az első részben a teljesítményét részletes benchmark eredményekkel támasztják alá, kiemelve, hogy ilyen méretkategóriában egyedülállóan erős az MMLU, GPQA Diamond és Video MME feladatokban. Felmerül a kérdés: Mennyire lehet bízni ezekben a teszteredményekben, illetve hogyan viselkedik a valós, felhasználói környezetben?
A telepítési és futtatási folyamat során végigveszik a gyakorlati lépéseket (például VLM és Transformers csomagok), miközben bemutatják a modell technikai részleteit, például a rétegek számát, az architektúra újdonságait (gated delta network, sparse mixture-of-experts). Felmerül, hogy az ilyen architektúrák hol segítik igazán a kis modelleket nagyobb teljesítmény elérésében.
Különböző feladatokon tesztelik a modellt: először kódgenerálásra, ahol egy Roblox-stílusú 3D animációval bízzák meg; majd többnyelvűség-tesztelés, ahol eredeti, kulturálisan illeszkedő idézeteket kell írni különböző nyelveken, amit követően kép- és videóelemzési képességeit vizsgálják. Ezek a próbák felvetik a kérdést, mennyire alkalmazható a modell komplex, valós feladatokban, és hol vannak a jelenlegi határai, például a formázás vagy hibás kimenetek terén.









