A
A
  • Angol
  • Magyar
  • 11 perc

Hangklónozás és érzelemgazdag TTS: a Higgs Audio V3 bemutatója több mint 100 nyelven

A Higgs Audio V3 TTS egy fejlett, több mint száz nyelvet támogató beszédszintetizáló rendszer, amely hangklónozással és érzelmek precíz szabályozásával hoz új színt a gépi beszéd világába.

Egy hétvége alatt teljes egészében elkészült egy projekt, amely több mint száz nyelven alakítja át a szöveget természetes, érzelmekkel teli beszéddé. A Higgs Audio V3 TTS modell lehetővé teszi a felhasználók számára, hogy akár egy rövid hangminta alapján bármilyen hangot klónozzanak, miközben az intonációt, a sebességet, a hangmagasságot vagy éppen a megszakításokat részletesen testre szabhatják különféle címkék használatával.

A bemutató során különböző nyelveken — spanyol, hindi, francia, urdu, indonéz, lengyel, német, arab, orosz, joruba, japán, brazil portugál, kínai, perzsa, svéd, bengáli és cseh — tesztelik a rendszert. Eközben az is szóba kerül, hogy ezekben a példákban hogyan sikerült visszaadni az adott érzelmeket, mennyire természetes a megszólalás, és mennyire meggyőző a hangmásolás minősége.

A technikai hátteret illetően röviden ismertetik a modell architektúráját: az audió adatokat hasonlóan kezeli, mint a nyelvi modellek a szöveget, tokenizálással és autoregresszív feldolgozással, majd dekódolással hanghullámmá alakítja a generált adatokat. Itt minden egyes referenciaminta kontextusként szolgál, meghatározva a későbbi generálás hangszínét.

Több érdekes kérdés is felmerül a prezentáció során: Vajon mennyire érzékelhető ténylegesen az átvett érzelem egy idegen nyelven? Mennyire sikerül autentikusan visszaadni a helyi kiejtést és hanglejtéseket? És végső soron, egy ilyen modell hogyan alakíthatja át a gépi beszédtechnológiához fűződő elvárásainkat a jövőben?