A bemutatott technológia, a VoxCPM2, kiemelkedik azzal, hogy egyszerre három fontos területet egyesít: helyben végzett szövegfelolvasást, hangmásolást és hangtervezést, mindezt harminc nyelven. Nem kell referenciamintát feltölteni, pusztán szöveges leírás alapján teljesen új hangot képes generálni, így akár egyedi, még nem létező karakterhangok is létrehozhatók.
Az eszköz telepítése, futtatása és tesztelése Ubuntu szerveren történik egy nagy teljesítményű Nvidia grafikus kártyán, és a folyamat során többféle funkciójával ismerkedhetünk meg. Érdekes kérdéseket vet fel, hogy milyen minőségű hangokat hoz létre tisztán leírásból, és mennyire képes pontosan visszaadni érzelmeket vagy egy meglévő hang egyediségét.
A demonstráció során többféle nyelven, különböző referenciahangokkal kísérleteznek: különösen izgalmas látni, miként boldogul a rendszer többnyelvű szövegekkel, illetve hogyan reagál különböző hangminőségű bemeneti fájlokra. Az is hangsúlyt kap, hogy milyen kihívások adódhatnak érzelemátvitelnél, és hogyan hat a bemeneti felvételek technikai minősége a végső eredményre.
Egy rövid szponzori részlet is megjelenik, ahol egy másik márkához tartozó hordozható monitorokat mutatnak be – ez is rávilágít arra, milyen környezetben tesztelhető hatékonyan egy ilyen fejlett AI-alapú beszédgenerátor.
A nézők végigkövethetik, hogyan néz ki egy haladó, nyílt forrású TTS rendszer működése, és betekintést kapnak az architektúra elméleti alapjaiba is, például, hogy milyen gépi tanulási elvek és adatbázisok állnak a háttérben.










