A beszédszintézis ugrásszerű fejlődésen ment keresztül az elmúlt években, a legújabb rendszerek szinte megkülönböztethetetlen, emberi hangminőségű megszólalások előállítására képesek. Különösen izgalmas fejlemény a zero-shot TTS (text-to-speech), amely már egy pillanatnyi hangmintából is bármilyen embert képes megszólaltatni anélkül, hogy speciális betanítás szükséges lenne hozzá.
Egy friss modell, a DMO Speech 2, a beszédszintézis minőségének új szintjét célozza, melyet helyileg is telepíthetünk és tesztelhetünk. Telepítési folyamatán túl a bemutató részletesen ismerteti a rendszer architektúráját, kitérve a diffúziós elven működő hanggenerálásra, a megerősítéses tanuláson alapuló időtartam-előrejelzésre, valamint a tanár-diák (teacher-student) mintavételi technikákra.
A videó gyakorlati példákon keresztül vizsgálja, hogy milyen minőségben képes az új modell különféle hangmintákat klónozni, miként használhatók ki a valós idejű és magas minőségű szintézis módok, illetve mik a rendszer erősségei és hiányosságai, például különböző nyelveken való kipróbálás során.
Felmerülnek izgalmas kérdések a beszéd expresszivitásáról, a hanghűség határairól – hogyan tudja a modell megőrizni vagy elveszíteni a hangsúlyokat, dallamot, illetve milyen kihívások maradtak fenn a beszédkészítés terén akár több nyelv használatakor.