A
A
  • Angol
  • Magyar
  • 10 perc

Alibaba Qwen3: Beszédfelismerés zajos környezetben több nyelven

Bemutatjuk az Alibaba új Qwen3 ASR beszédfelismerő rendszerét, amely akár zajos környezetben és több nyelven is megbízhatóan működik, miközben kontextussal is finomhangolható.

Az új Qwen3 ASR modellt az Alibaba fejlesztette ki, kifejezetten olyan helyzetekre, ahol háttérzaj nehezíti a beszéd értelmezését. Innovatív képességeinek köszönhetően nemcsak a tiszta hangot, hanem zenével, zajjal vagy több beszélővel kevert felvételeket is képes hatékonyan értelmezni és átírni.

A rendszer különlegessége, hogy akár tizenegy különböző nyelvet, köztük az angolt, a mandarint, a spanyolt, az arabot és a japánt is felismer, ráadásul az akcentusokat és a különféle dialektusokat is kezeli. Emellett egyedülálló kontextusérzékenységének köszönhetően jogi, műszaki vagy más szakszókincslisták, dokumentumok megadásával személyre szabható a transzkripciós pontosság.

Felhasználói tapasztalatok szerint a Qwen3 ASR képes még zajos, zenés, többszereplős tartalmakból is érthető átiratot készíteni. A videó gyakorlati példákon keresztül mutatja be, hogy mekkora szerepet kap a kontextus hozzáadása, illetve mennyire megbízható a különféle nyelvek és helyzetek feldolgozása során.

Az API-n keresztül használható szolgáltatás nem nyílt forráskódú, ami felveti a kérdést: vajon szükség van-e nyílt forráskódú alternatívákra ezen a téren, és hogyan pozicionálja magát az Alibaba a konkurens rendszerekkel szemben?