2010-ben Li Jun néhány mérnök társaságában Pekingben megalapította a Xiaomi céget azzal a céllal, hogy csúcstechnológiát kínáljon megfizethető áron az egyszerű embereknek. Bár a márka főként okostelefonjairól ismert, a háttérben csendben felépült a Mimo nevű AI-kutatócsapat, amely sokkal többet akart elérni puszta hardvergyártásnál.
Ez a csapat olyan kihívást tűzött ki maga elé, amelyet a legtöbb mesterséges intelligenciával foglalkozó kutatóintézet nem vállalt: lehet-e olyan gépet alkotni, amely valóban érti az emberi beszédet? A legújabb eredményük a Mimo V2.5 ASR, egy kétnyelvű magyar–angol, pontosabban kínai–angol beszédfelismerő modell, amelyet több lépcsőben, hatalmas audioadathalmazon és speciális finomhangolással fejlesztettek.
A videó részletesen bemutatja, hogyan zajlik a modell helyi telepítése és használata, valamint milyen teljesítményt nyújt különböző körülmények között: hangos környezetben, dalok átiratolásakor, nyelvváltáskor (kódváltás), illetve gyenge minőségű hangfelvételeken is. Több tesztpélda szemlélteti, miként boldogul a rendszer a több nyelvvel, dialektusokkal és akár egyszerre beszélő emberekkel.
Felmerül a kérdés, vajon meddig fejleszthető még a jelenlegi technológia, és képes lesz-e egy AI a jövőben pontosan különbséget tenni beszélők, nyelvek vagy akár hangnemek között? A Mimo V2.5 ASR bemutatása nemcsak technológiai, hanem társadalmi vonatkozású dilemmákat is feszeget: mennyiben változtatja meg a kommunikációt, ha egy ilyen rendszer minden árnyalatot képes követni?










