Az új, beszédalapú mesterségesintelligencia-modell tesztelése és telepítése kerül fókuszba, amely helyileg, saját gépen futtatható. A Step Audio 2 Mini elnevezésű speech-to-speech (S2S) rendszer újdonsága, hogy a hangot közvetlenül integrálja a nyelvi modellfolyamatba, lehetővé téve mind a szöveges, mind a hangalapú tokenek egységes kezelését.
Érdemes figyelni a rendszer architektúrájára: egy fagyasztott, előre betanított audioenkódert alkalmaz, amit egy hangadapter követ, a feldolgozás hatékonysága érdekében pedig az audiotartalmat mintavételezi. A válaszok generálásában text-to-speech és hullámalak-szintézis is helyet kap, ami lehetővé teszi, hogy a rendszer természetes, érzelmeket visszaadó hangon kommunikáljon a felhasználóval.
A demó során felmerülnek izgalmas kérdések, például: mennyire képes a modell valós idejű lekérdezések, mint az aktuális időjárás vagy személyi információk feldolgozására, és hogyan kezeli az összetett érzelmi hangmintákat, illetve a kontextusalapú tanulást és válaszadást.
A tesztelés rávilágít a rendszer erősségeire, például a fejlett beszédszintézisre és kontextusérzékeny válaszokra, de akadnak problémás területek is, mint a hosszabb feldolgozási idők. Felmerül a kérdés, hogy ez a késleltetés mikor válik zavaróvá egy beszélgetés során, illetve milyen további fejlesztési lehetőségek állnak a technológia előtt.