Ebben a bemutatóban egy kompakt, eszközön futó beszédmodell telepítésének és tesztelésének részleteit ismerhetjük meg. A modell a LLaMA-alapú transzformer architektúrán működik, és képes hangalapú tokenek előrejelzésére. A hangsúly a VUI modell egyik változatának, a két beszélő párbeszédére alkalmas ‘co-host’ verzió helyi telepítésén és kipróbálásán van.
Az elhangzó részletek kitérnek arra, hogyan lehet a modellt egy Ubuntu operációs rendszerű számítógépen, Nvidia RTX A6000 GPU-val futtatni virtuális környezet segítségével. A folyamat során szó esik a szükséges Python verziókról és egyéb technikai részletekről, valamint arról, hogyan támogatja maga a modell az érzelmek és paralingvisztikai jelzések (mint a nevetés vagy a sóhaj) szintetizálását is.
A tesztelés során változatos, két szereplős párbeszédeket generálnak, többek között egy podcast-stílusú beszélgetést és egy sci-fi témájú misztikus jelenetet. A videó arra is felhívja a figyelmet, hogy ez a beszédmodell jelenleg inkább proof-of-concept, tehát elsődlegesen fejlesztési és kísérleti célokra javasolt, nem pedig éles, termelési környezetbe. Érdekes kérdések merülnek fel a hangminőséggel, az érzelmi árnyalatok visszaadásával és a futtatás sebességével kapcsolatban.