Különleges szöveg–beszéd (TTS) modellt próbálhatunk ki, amely lokálisan is telepíthető, még kisebb gépigény mellett is. Az Open BMBB VoxCPM modellje nem hagyományos, hanem diszkrét tokenek nélküli, end-to-end diffúziós megközelítéssel alakítja át a szöveget hanggá.
Érdekes kérdésként merül fel, hogy valóban mennyire élethű a hanggenerálás, illetve mennyire pontosan képes klónozni egy adott hangot pusztán egy rövid minta alapján. Tesztelik, milyen érzelmi gazdagságot tud visszaadni, és hol vannak a modell korlátai a természetes beszéd árnyalatainak megjelenítésében.
Különböző nyelvi beállításokkal (angol, kínai, spanyol, arab) is próbára teszik, hogy hány nyelven működik jól a technológia, vagy mutat-e tipikus „hangszínezést”. A teljesítményt CPU-n, illetve GPU-val is elemzik, végül pedig a lehetséges felhasználási területek is felmerülnek a valósághű hangklónozás és dinamikus beszédszintézis világában.