Újra megjelent egy ASR (Automatikus beszédfelismerő) modell a GLM csapatától, ezúttal egy mindössze 1,5 milliárd paraméterrel rendelkező, kompakt változat, amelyet a videóban helyben telepítenek és tesztelnek.
Kiderül, hogy az elmúlt hetekben számos új modellt publikált a GLM vagy Jau csapata, köztük szöveg-beszéd, vizuális, illetve prémium modelleket is, miközben a többi kínai fejlesztési laboratórium visszafogottabb aktivitást mutat. Ebben a kontextusban különösen érdekessé válik az új modell, és hogy milyen kihívásokra képes választ adni.
A rendszer fókuszában a valós, gyakran problémás beszédhelyzetek állnak, például a halk beszéd, dialektusok, zajos vagy több beszélőtől származó hanganyagok; ráadásul kétnyelvű, hiszen kezeli az angol és a kínai nyelveket (beleértve a kantoni és mandarin nyelvjárásokat is).
A videóban részletesen bemutatják a főbb benchmarkokat, ahol ez a modell alacsony hibaaránnyal teljesít, ügyesen szerepel például a VNET meeting és a Libri clean adathalmazokon, és tesztelik rövid és hosszú hangfájlokon is. Közben a néző megtudja, mennyire hatékonyan használja a grafikus vezérlők memóriáját, valamint hogy milyen egyéb márkákhoz és modellekhez viszonyítják a teljesítményét.
Kérdésként felmerül, hogy a generatív AI területén mennyire jelentős előrelépés ez a fejlesztés más, jól ismert rendszerekhez – például a Whisperhez – képest, illetve milyen tényezők javíthatók a jövőben a pontosabb átirat készítéséhez, különösen hosszabb és nyelvileg összetettebb hanganyagok esetén.









