Az új Qwen 3.5 Omni Plus modell többféle, izgalmas próbának van alávetve ebben az exkluzív bemutatóban. A bemutató során először egy képalapú játékot generáltak vele egyetlen HTML fájlban, amelyet a modell egyetlen képből és egy rövid szöveges utasításból alkotott meg.
Ezután kipróbálták a modell fejlett hangfelismerési képességeit: egy háromperces audiofájlt kellett részletesen elemeznie, kronológiai sorrendben feltérképeznie, valamint a hangulatot és a beszélő személyazonosságát meghatároznia. Lenyűgöző részletességgel, milliszekundum pontossággal adja meg a szövegátiratot, beleértve a hangminta környezetének elemzését is.
Az Omni Plus többnyelvű fordítási teszten is átesik, amely során ötvennél is több nyelvre fordít egy kiválasztott mondatot. Egyes ritkább nyelveknél kisebb eltérések tapasztalhatók, de összességében nagyon pontos az eredmény.
Az OCR és képfeldolgozás tesztelése közben régi újságcikkeket és kézzel írt matematikai feladatokat is elemzett a modell. Ezekből strukturált szöveget alkot, összegzést ír, és a kézírás felismerése is impresszív színvonalú, miközben elkerüli az adatok téves generálását (hallucinációt).
A vizualizációs képességek demonstrálásaként egy MI által generált videót használva elemzi a jelenetet, leírja annak szereplőit, hangulatát és meghatározza lehetséges földrajzi helyszíneit. Emellett egy baseballjelenet elemzése során részletes kommentárt ad a mozgás technikájáról, anélkül, hogy előzetesen közölték volna vele a játék nevét.
Az epizódban felvetődő kulcskérdések közé tartozik: vajon mennyire képes ez az új multimodális modell összetett utasítások pontos végrehajtására, mennyire univerzális a fordítási pontossága, és hogyan teljesít valós, gyakorlati szituációkban – legyen szó játékgenerálásról, hang- vagy képértelmezésről.









