Ebben a bemutatóban egy indiai származású szövegfelolvasó modellt, a Vinát telepítünk és próbálunk ki, amely a hindi és angol nyelvet támogatja, valamint képes kevert, úgynevezett code-mixed bemenetek kezelésére is. A névválasztás eredete is szóba kerül: a Vina egy hagyományos indiai pengetős hangszer neve, amely spirituális és zenei jelentőséggel bír a szubkontinensen.
A Vina TTS modellt a Maya Research fejlesztette, és egy Llama alapú, autoregresszív transformer architektúra áll mögötte, amely kiemelkedő minőségű, természetes hangzású beszédet generál a Snack nevű neurális audiokodek használatával. Négy különböző előadói hang közül lehet választani, amelyek mind egyedi stílust képviselnek.
A videóban bemutatjuk a telepítési folyamatot Ubuntu rendszeren, NVIDIA RTX A6000 GPU-val, de szó esik arról is, hogyan lehet kisebb teljesítményű GPU-val vagy akár CPU-val is használni a modellt kvantizált változatban. Az implementáció során hangsúlyos témák merülnek fel, mint a nyílt forráskód, a valós idejű alkalmazások, valamint a hatékonyság és elérhetőség.
Lejátszásra kerülnek különböző nyelvi és stílusbeli példák: hindi, angol, valamint vegyes nyelvű szövegek és filmes idézetek – ezek illusztrálják a modell sokoldalúságát, valamint felvetik a további regionális nyelvek támogatásának lehetőségét. Emellett tesztelik, hogy milyen mértékben képes más dél-ázsiai nyelveken megszólalni, mint például urdu, bengáli vagy tamil.