A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 10 perc

Covo-Audio: A Tencent új hangalapú AI modellje helyi telepítéssel és bemutatóval

A Tencent legújabb, végponttól végpontig működő hangalapú AI modellje egyszerű beszélgetéseket és interaktív funkciókat kínál helyi telepítéssel, angol és kínai nyelven.

A Tencent által fejlesztett Covo-Audio egy 7 milliárd paraméteres, végponttól végpontig működő hangalapú nyelvi modell, amely képes a nyers hangot bemenetként kezelni és hang formájában válaszolni – mindezt egyetlen, egységes rendszeren belül. Ez az architektúra lehetővé teszi, hogy a különálló beszédfelismerés, szövegfeldolgozás és szövegből beszéddé alakítás helyett minden egy láncban, egyszerre valósuljon meg.

A videó során a nézők betekintést nyerhetnek a modell telepítésének folyamatába, GPU-s erőforrásigényébe, valamint annak működésébe. Kiemelt figyelmet kap a letöltési és üzembe helyezési lépések bemutatása, valamint a Python környezet és a szükséges előfeltételek telepítése is.

Érdekes technikai részletek derülnek ki a modell belső működéséről: a bemeneti hangot egy Whisper Large V3 encoder dolgozza fel, majd egy adapteren és egy waveLM-alapú beszéd tokenizálón keresztül végül flow matching és BigVGAN vocoder segítségével jön létre a hangkimenet. A folyamat során a diszkrét hangmintákból fokozatosan teljes, gazdag hangzású audio jön létre.

Két változat létezik ebből az AI-ból: az egyik a félduplex (Kovo Audio Chat), a másik a teljes duplex (Kovo Audio Chat FD) beszélgetéseket támogatja. Mindkettő képes párbeszédet, hangtartalmú kérdés-választ és valós idejű interakciót kezelni, például megszakításokat, visszakérdezéseket felismerni.

A bemutató során a fejlesztő egy egyszerű párbeszédet futtat le a modellen, ahol két hangalapú kérdésre válaszol a rendszer, miközben megőrzi a beszélgetés kontextusát is. Bár a modell főként angolul és kínaiul működik, kiemelkedően kezeli a párbeszéd előzményeit, és a kérdésekhez illeszkedő választ ad.

Felmerülnek olyan kérdések, mint a telepítés nehézségei, a szükséges kódjavítások, illetve hogy mennyire használható jelenleg éles környezetben. Ez rávilágít arra is, mennyire fontos a nyílt forráskódú modellek tényleges használhatósága a felhasználók számára.