A Xiaomi új fejlesztése, a Myo Audio bemutatkozik egy részletes videóban, amely egyrészt ismerteti a modell fő céljait: egy univerzális, nagy léptékű, hangalapú nyelvi modell létrehozása, amely mind a beszédértést, mind az audiogenerálást képes egy rendszeren belül kezelni.
A narrátor érdekes kérdéseket vet fel a hangalapú nyelvi modellek tipikus problémáiról, például arról, hogy korábban mennyire szükséges volt feladatspecifikus finomhangolást alkalmazni — míg a Myo Audio a GPT-hez hasonló, következő token előrejelzéses megközelítést használ, amelyet audióra adaptáltak, így általánosabban alkalmazható különböző feladatokra.
Technikai részletekbe is bepillantást nyújt, például a modell architektúrájáról, annak főbb elemeiről – külön említést kap a Myo Audio tokenizer, egy patch encoder-decoder keretrendszer és a nagy LLM-bázis (Myo 7 milliárd paraméterrel). Bemutatásra kerül a telepítési folyamat is, ahol egy Ubuntu rendszeren próbálnak ki különféle funkciókat, például a demóban elérhető mikrofonhasználatot és élő beszélgetést a modellel.
A videóban valós interakciókat is láthatunk, ahol a modell különféle beszélgetési szituációkra reagál – ezekkel kapcsolatban a szerző kendőzetlenül osztja meg saját tapasztalatait a hangzás, hangnem és beszédáramlás terén, valamint rámutat a teszt során felmerülő kihívásokra is, például a többhangú válaszok vagy a megszakítások kezelésére.
Felmerül a kérdés, mennyire sikerült valóban áttörést elérniük az eddigi Xiaomi modellek árnyékában, és mik lehetnek a további fejlődési lehetőségek az AI-hangalapú interakciók piacán.