Az NVIDIA legújabb neurális hálózatának, a Nemotron 3.5 ASR modelljének működését mutatja be a videó. Ez a beszédfelismerő rendszer képes valós időben, akár 40 nyelven is felismerni és leírni a hanganyagot, ráadásul mindezt egy egységes modellen belül.
Az alkotó részletesen végigveszi az installációs folyamatot, majd többféle nyelvvel, változó hangerővel, eltérő minőségű felvételekkel teszteli a rendszert. Érdekes kérdéseket is felvet: hogyan kezeli a modell a kevésbé elterjedt nyelveket, vagy miként hat a teljesítményre, ha alacsony a bemeneti audió hangereje?
A technikai részletek is terítékre kerülnek. Bemutatják a cache-aware fast conformer RNN-T architektúrát, amely lehetővé teszi a gyors és gazdaságos működést, valamint a nyelvi azonosító prompt technológiát, ami egyedivé teszi a modellt. Az összehasonlításból kiderül, mikor érdemes explicit nyelvi beállítást alkalmazni és mikor hagyatkozhatunk az automatikus érzékelésre.
Tesztek során szóba kerülnek azok az esetek, amikor bizonyos nyelvek (például thai vagy urdu) jelentős kihívást jelentenek a rendszer számára. A videó többször is invitálja a nézőket, hogy osszák meg saját tapasztalataikat a pontos felismeréssel kapcsolatban, és véleményezzék a modell teljesítményét saját anyanyelvükön.










