A
A
  • Angol
  • Magyar
  • 9 perc

Xiaomi Mimo V2.5 ASR: új szint a beszédfelismerésben zajos környezetben

A Xiaomi legújabb AI beszédfelismerő modellje, a Mimo V2.5 ASR, új szintre emeli a nyelvi megértést és a kódváltást, akár zajos, hétköznapi környezetekben is.

2010-ben Li Jun néhány mérnök társaságában Pekingben megalapította a Xiaomi céget azzal a céllal, hogy csúcstechnológiát kínáljon megfizethető áron az egyszerű embereknek. Bár a márka főként okostelefonjairól ismert, a háttérben csendben felépült a Mimo nevű AI-kutatócsapat, amely sokkal többet akart elérni puszta hardvergyártásnál.

Ez a csapat olyan kihívást tűzött ki maga elé, amelyet a legtöbb mesterséges intelligenciával foglalkozó kutatóintézet nem vállalt: lehet-e olyan gépet alkotni, amely valóban érti az emberi beszédet? A legújabb eredményük a Mimo V2.5 ASR, egy kétnyelvű magyar–angol, pontosabban kínai–angol beszédfelismerő modell, amelyet több lépcsőben, hatalmas audioadathalmazon és speciális finomhangolással fejlesztettek.

A videó részletesen bemutatja, hogyan zajlik a modell helyi telepítése és használata, valamint milyen teljesítményt nyújt különböző körülmények között: hangos környezetben, dalok átiratolásakor, nyelvváltáskor (kódváltás), illetve gyenge minőségű hangfelvételeken is. Több tesztpélda szemlélteti, miként boldogul a rendszer a több nyelvvel, dialektusokkal és akár egyszerre beszélő emberekkel.

Felmerül a kérdés, vajon meddig fejleszthető még a jelenlegi technológia, és képes lesz-e egy AI a jövőben pontosan különbséget tenni beszélők, nyelvek vagy akár hangnemek között? A Mimo V2.5 ASR bemutatása nemcsak technológiai, hanem társadalmi vonatkozású dilemmákat is feszeget: mennyiben változtatja meg a kommunikációt, ha egy ilyen rendszer minden árnyalatot képes követni?