A
A
  • Angol
  • Magyar
  • 15 perc

Vina: indiai szövegfelolvasó modell kipróbálása és telepítése

A Vina nevű indiai TTS modell telepítése, működésének bemutatása és különféle nyelveken történő kipróbálása, valamint a lehetőségek és korlátok feltérképezése.

Ebben a bemutatóban egy indiai származású szövegfelolvasó modellt, a Vinát telepítünk és próbálunk ki, amely a hindi és angol nyelvet támogatja, valamint képes kevert, úgynevezett code-mixed bemenetek kezelésére is. A névválasztás eredete is szóba kerül: a Vina egy hagyományos indiai pengetős hangszer neve, amely spirituális és zenei jelentőséggel bír a szubkontinensen.

A Vina TTS modellt a Maya Research fejlesztette, és egy Llama alapú, autoregresszív transformer architektúra áll mögötte, amely kiemelkedő minőségű, természetes hangzású beszédet generál a Snack nevű neurális audiokodek használatával. Négy különböző előadói hang közül lehet választani, amelyek mind egyedi stílust képviselnek.

A videóban bemutatjuk a telepítési folyamatot Ubuntu rendszeren, NVIDIA RTX A6000 GPU-val, de szó esik arról is, hogyan lehet kisebb teljesítményű GPU-val vagy akár CPU-val is használni a modellt kvantizált változatban. Az implementáció során hangsúlyos témák merülnek fel, mint a nyílt forráskód, a valós idejű alkalmazások, valamint a hatékonyság és elérhetőség.

Lejátszásra kerülnek különböző nyelvi és stílusbeli példák: hindi, angol, valamint vegyes nyelvű szövegek és filmes idézetek – ezek illusztrálják a modell sokoldalúságát, valamint felvetik a további regionális nyelvek támogatásának lehetőségét. Emellett tesztelik, hogy milyen mértékben képes más dél-ázsiai nyelveken megszólalni, mint például urdu, bengáli vagy tamil.