A
A
  • Angol
  • Magyar
  • 12 perc

Új távlatok az Omni3 Thinking multimodális modell tesztelésében helyi GPU-val

Az Omni3 Thinking modellt helyi GPU-n, multimodális (szöveg, kép, hang, videó) feldolgozási képességeivel teszteli a szerző, kiemelve annak multilingvális és technológiai újításait.

Az Omni3 család új tagjait járja körül a videó, amelyek között a Thinking nevű változatot telepíti és próbálja ki a szerző, helyben, saját GPU-s rendszeren. Az installációhoz a VLLM eszközt használja, és közben részletesen bemutatja a szükséges technikai lépéseket és az elvárt hardveres környezetet.

A bemutatott modell kifejezetten multimodális: képes többek között szöveg, kép, hang és videó kezelésére, valamint ezek egyidejű elemzésére és feldolgozására. Kiemelt szerepet kap a multilingvualitás, hiszen a modell számos nyelven képes értelmezni, válaszolni és hangot szintetizálni.

Különös figyelmet fordít a beszélő („talker”) és a gondolkodó („thinker”) architektúra ismertetésére, amely lehetővé teszi, hogy a modell logikai érvelést és folyamatos beszédgenerálást is végezzen, miközben multimodális inputokat fogad. Az összeállításban valós multimodális tesztpéldák is helyet kapnak: egyszerre kerül bemenetként szöveg, hang, kép és videó, többnyelvű feladatokkal.

A prezentáció során felmerülnek a modell jelenlegi korlátai, például hogy helyben még nincs hangkimenet támogatás, illetve tapasztalhatók hibák, néhány nyelvnél vegyes eredmények születnek a fordításban. Mindez azonban felveti a kérdést: hogyan fejlődnek a multimodális mesterséges intelligencia rendszerek, és milyen lehetőségeket nyitnak a soknyelvű, összetett feladatok automatizálásában?