Az új Qwen3 ASR modellt az Alibaba fejlesztette ki, kifejezetten olyan helyzetekre, ahol háttérzaj nehezíti a beszéd értelmezését. Innovatív képességeinek köszönhetően nemcsak a tiszta hangot, hanem zenével, zajjal vagy több beszélővel kevert felvételeket is képes hatékonyan értelmezni és átírni.
A rendszer különlegessége, hogy akár tizenegy különböző nyelvet, köztük az angolt, a mandarint, a spanyolt, az arabot és a japánt is felismer, ráadásul az akcentusokat és a különféle dialektusokat is kezeli. Emellett egyedülálló kontextusérzékenységének köszönhetően jogi, műszaki vagy más szakszókincslisták, dokumentumok megadásával személyre szabható a transzkripciós pontosság.
Felhasználói tapasztalatok szerint a Qwen3 ASR képes még zajos, zenés, többszereplős tartalmakból is érthető átiratot készíteni. A videó gyakorlati példákon keresztül mutatja be, hogy mekkora szerepet kap a kontextus hozzáadása, illetve mennyire megbízható a különféle nyelvek és helyzetek feldolgozása során.
Az API-n keresztül használható szolgáltatás nem nyílt forráskódú, ami felveti a kérdést: vajon szükség van-e nyílt forráskódú alternatívákra ezen a téren, és hogyan pozicionálja magát az Alibaba a konkurens rendszerekkel szemben?