A
A
  • Angol
  • Magyar
  • 8 perc

Nvidia MagpieTTS: többnyelvű szövegfelolvasás otthon, szerény hardverrel

Bemutatjuk az Nvidia új MagpieTTS modelljét, amely egyetlen hanggal kilenc nyelven képes szöveget beszéddé alakítani, teljesen helyi futtatással, szerény hardverigény mellett.

Egy új, többszörös nyelvi támogatást kínáló mesterséges intelligencia alapú szövegfelolvasó modellt ismerhetünk meg, amely 9 különböző nyelven képes egyetlen AI hang segítségével beszédet generálni. A részletes bemutató során a modell telepítésének lépései és a szükséges szoftveres háttér (Nemo keretrendszer, Gradio demó, Ubuntu környezet) is terítékre kerülnek.

Külön figyelmet kap a modell mérete, valamint az a tény, hogy akár szerény hardveres feltételek mellett – például CPU-val vagy kisebb VRAM-mal ellátott GPU-n is – kiválóan működik. A demonstrációban több nyelven próbálják ki a rendszert, beleértve a magasabb erőforrást igénylő ázsiai vagy kevéssé támogatott nyelveket is.

A videó során érdekességként felmerül a kiemelkedően alacsony memóriahasználat, a hangszínválasztás lehetőségei, illetve az, hogy az egész architektúra sok, már ismert technológiára épül, de kibővített nyelvi lefedettséggel és továbbfejlesztett tanítási adathalmazzal dolgozik. Kérdésként vetődik fel, vajon a kiejtés mennyire természetes az egyes nyelveken, és miként boldogul a modell kevésbé elterjedt nyelvekkel, amikor a hangminták is főleg angol nyelvű anyagokból származnak.

Korrekt áttekintést kapunk arról, miként épül fel a Transformer-alapú architektúra, hogyan történik a tokenek hullámformává alakítása, és milyen egyedi vagy új technikák segítik az eredmény minőségének javítását. Felmerül az is, hogy a modell expresszivitásban, érzelmek visszaadásában mennyire tudja felvenni a versenyt más piacon elérhető vagy vállalati szintű fejlesztésekkel.