A
A
  • Angol
  • Magyar
  • 11 perc

Cohere Transcribe: Hangfelismerés 14 nyelven, villámgyorsan és lokálisan

A videó bemutatja a Cohere Transcribe modell lokális telepítését és hangfelismerési képességeit 14 nyelven, kiemelve annak technológiai újdonságait és gyakorlati alkalmazását.

A videó a Cohere Transcribe automatikus beszédfelismerő modelljét mutatja be, amely egy nyílt forráskódú, kétmilliárd paraméteres ASR rendszer, és akár 14 nyelven képes hangot szöveggé alakítani.

Az ismertetés során részletesen szót ejtenek a modell felépítéséről: a nyers hangot először MEL spektrogrammá alakítja, majd egy speciális neurális hálózat, a konformer architektúra segítségével értelmezi. Ez a rendszer egyesíti a transzformer és a konvolúciós rétegek előnyeit, ami elősegíti a mintázatok hatékony felismerését az audióban.

Az installációs lépések bemutatása közben kiemelik a rendszer gyorsaságát és sokoldalúságát – más ASR modellekhez képest akár háromszor gyorsabb, és hosszabb hanganyagokat is kezel, miközben a VRAM-fogyasztása mérsékelt.

Felmerülnek technikai és felhasználói kérdések, például hogy a modell nem képes nyelvdetektálásra vagy beszélőszétválasztásra, illetve sajátos hibákat is produkálhat néma szakaszok esetén. A videó több nyelven, valós példákkal teszteli a rendszert, különböző hangfájlok feldolgozásával bemutatva, hogyan működik a gyakorlatban.

További érdekességként a közösség visszajelzéseit is várják, különösen anyanyelvi beszélőktől, hogy hogyan ítélik meg a transzkripció pontosságát különféle nyelveken.