Az új Chroma 4B modellt, egy end-to-end multimodális beszélgetési AI-t mutatja be a videó, amely képes valós időben feldolgozni a felhasználói hangot, megérteni annak tartalmát és stílusát, valamint személyre szabott válaszokat generálni szintetikus hangkimenet formájában.
Külön figyelmet szentelnek az architektúrának: a rendszer az Alibaba Quen modelljeihez hasonló gerincet kapott, Llama típusú hátteret használ, és okos tokenizációval igyekszik felgyorsítani a hangalapú feldolgozást. Érdekes kérdésként vetődik fel, mennyire sikerül megtartani a személyes hangazonosságot, és mennyire tűnik természetesnek a generált beszéd.
A videóban bemutatják a telepítési folyamatot Ubuntu rendszeren, Nvidia RTX A6000 GPU használatával. A VRAM-forgalmat is vizsgálják, valamint gyakorlati példákkal tesztelik a hangklónozás minőségét. A bemutatott példákból kiderül, hogy vajon mennyire sikerül az új modellnek élethűen visszaadni a bemenetként megadott hang minden árnyalatát. Felmerül, hogy a felhasználó által adott hangminták minősége mennyire befolyásolja az eredményt, és hogyan viszonyul a modell más, hasonló ingyenes megoldásokhoz.
A hallgatókat abba a helyzetbe hozza, hogy elgondolkodjanak: miben rejlik a különbség a valódi személyes beszédklón és a mesterségesen generált hang között? A technológia fejlődésével vajon hol húzódnak a határok, és mennyire lehetséges elérni a természetes, egyedi megszólalást?








