A felvétel egy fejlett, nyílt forráskódú szövegfelolvasó modell, a KaniTTS2 lehetőségeit és beállításait mutatja be, amelyet az angol nyelv akcentusainak és dialektusainak minél természetesebb visszaadására terveztek.
Bemutatásra kerül, hogy a KaniTTS2 mennyire képes eltalálni különböző helyi akcentusokat – így például a bostoni, New York-i vagy glasgow-i dialektusokat – és hogyan lehet egy helyi jellegzetességekkel teli beszédet legeneráltatni különböző szereplőkkel.
A néző érdekes kérdésekkel szembesül, például: mennyire érzékeny a modell a különböző akcentusokra, valóban felismeri-e a helyi humor, szófordulatok és élethelyzetek sajátosságait. Kiderül, hogyan lehet saját hangot is klónozni vagy akár egyedi hangprofilt definiálni JSON vektor segítségével, és hogyan teljesít ebben az új verzió.
A beállítás, a működés és a rendszerigény is szóba kerül, különös figyelemmel arra, mennyire alacsony a fogyasztása és milyen hardveren képes futni valós időben. A szintézis folyamata, az akusztikus tokenek kezelése és a beszéd természetességének kérdése is terítékre kerül.










