Ebben a részletes bemutatóban a Qwen 3.5 2B mesterséges intelligencia modellt vizsgálják, amely egy érdekes kompromisszumot kínál a teljesítmény és a futtathatóság között. Az alkotó amellett érvel, hogy a 2 milliárd paraméteres verzió meglepően sokoldalú, hiszen elég kicsi ahhoz, hogy szinte bármilyen gépen fusson, miközben komplex feladatokra is alkalmas.
Központi téma a modell soknyelvűsége és multimodális képessége, amely lehetővé teszi szöveg, kép és videó értelmezését. A szerző részletesen bemutatja a benchmark teszteket, különösen kiemelve a gyors reakciókat nem-gondolkodó („non-thinking”) módban, valamint a választható gondolkodó („thinking”) módot.
A bemutató során különböző feladatokkal tesztelik a modellt: sportjelenetek elemzése videóban, szociális szituációk felismerése, földrajzi helyszínek azonosítása képek alapján, állatok felismerése, valamint többnyelvű szövegek azonosítása és OCR-tesztelés. A vizsgálatok rávilágítanak a modell erősségeire és gyengeségeire – például videóelemzésben kiváló, míg különleges karakterfelismerésben, illetve összetettebb nyelvi feladványokban olykor téved.
Külön érdekességek közé tartozik a kreatív írási feladat, amely során a modellnek humorérzékkel és logikával kell reagálnia, valamint programozási probléma megoldása is bemutatásra kerül. Az alkotó végig kíváncsi kérdéseket vet fel: elég okos-e egy ilyen kis modell a valódi feladatokhoz, és hogyan teljesít különböző kontextusokban?










