A
A
  • Angol
  • Magyar
  • 9 perc

A GLM bemutatja az új, kétnyelvű ASR nano modellt helyi tesztelésre

A GLM bemutatta új, nyílt forráskódú, kisméretű ASR nano modelljét, amely két nyelven is működik, és helyben tesztelhető, illetve telepíthető.

Újra megjelent egy ASR (Automatikus beszédfelismerő) modell a GLM csapatától, ezúttal egy mindössze 1,5 milliárd paraméterrel rendelkező, kompakt változat, amelyet a videóban helyben telepítenek és tesztelnek.

Kiderül, hogy az elmúlt hetekben számos új modellt publikált a GLM vagy Jau csapata, köztük szöveg-beszéd, vizuális, illetve prémium modelleket is, miközben a többi kínai fejlesztési laboratórium visszafogottabb aktivitást mutat. Ebben a kontextusban különösen érdekessé válik az új modell, és hogy milyen kihívásokra képes választ adni.

A rendszer fókuszában a valós, gyakran problémás beszédhelyzetek állnak, például a halk beszéd, dialektusok, zajos vagy több beszélőtől származó hanganyagok; ráadásul kétnyelvű, hiszen kezeli az angol és a kínai nyelveket (beleértve a kantoni és mandarin nyelvjárásokat is).

A videóban részletesen bemutatják a főbb benchmarkokat, ahol ez a modell alacsony hibaaránnyal teljesít, ügyesen szerepel például a VNET meeting és a Libri clean adathalmazokon, és tesztelik rövid és hosszú hangfájlokon is. Közben a néző megtudja, mennyire hatékonyan használja a grafikus vezérlők memóriáját, valamint hogy milyen egyéb márkákhoz és modellekhez viszonyítják a teljesítményét.

Kérdésként felmerül, hogy a generatív AI területén mennyire jelentős előrelépés ez a fejlesztés más, jól ismert rendszerekhez – például a Whisperhez – képest, illetve milyen tényezők javíthatók a jövőben a pontosabb átirat készítéséhez, különösen hosszabb és nyelvileg összetettebb hanganyagok esetén.