Az Omni3 család új tagjait járja körül a videó, amelyek között a Thinking nevű változatot telepíti és próbálja ki a szerző, helyben, saját GPU-s rendszeren. Az installációhoz a VLLM eszközt használja, és közben részletesen bemutatja a szükséges technikai lépéseket és az elvárt hardveres környezetet.
A bemutatott modell kifejezetten multimodális: képes többek között szöveg, kép, hang és videó kezelésére, valamint ezek egyidejű elemzésére és feldolgozására. Kiemelt szerepet kap a multilingvualitás, hiszen a modell számos nyelven képes értelmezni, válaszolni és hangot szintetizálni.
Különös figyelmet fordít a beszélő („talker”) és a gondolkodó („thinker”) architektúra ismertetésére, amely lehetővé teszi, hogy a modell logikai érvelést és folyamatos beszédgenerálást is végezzen, miközben multimodális inputokat fogad. Az összeállításban valós multimodális tesztpéldák is helyet kapnak: egyszerre kerül bemenetként szöveg, hang, kép és videó, többnyelvű feladatokkal.
A prezentáció során felmerülnek a modell jelenlegi korlátai, például hogy helyben még nincs hangkimenet támogatás, illetve tapasztalhatók hibák, néhány nyelvnél vegyes eredmények születnek a fordításban. Mindez azonban felveti a kérdést: hogyan fejlődnek a multimodális mesterséges intelligencia rendszerek, és milyen lehetőségeket nyitnak a soknyelvű, összetett feladatok automatizálásában?