Fad Mirza egy új generációs beszédszintetizáló modellt, a Solex Podcastot mutatja be, amely a párhuzamos nyelvi és paralingvisztikai jegyek egyesítésével törekszik a valóságos podcast beszélgetések élményének visszaadására. A rendszer célja, hogy ne csak nyelvtanilag, hanem érzelmileg is hiteles dialógusokat hozzon létre, és több nyelven – angolul, mandarinul és további kínai dialektusokban – is működjön.
A videó bemutatja a telepítési folyamatot, amely során egy Nvidia GPU-n futtatják a modellt Ubuntu rendszeren. A nézők megtudhatják, hogyan lehet a Solex Podcastot saját gépen futtatni, miként csatlakozzanak a HuggingFace felületéhez, és hogyan töltsenek le előre rögzített hangmintákat férfi és női hanggal.
Érdekes kérdésként merül fel, hogy a modell mennyire tud természetes átmenetet és érzelmi árnyalatokat létrehozni a beszélőváltások során, valamint mennyire különíthetők el a különböző dialektusok és nem verbális jelek, mint például a nevetés vagy sóhaj. A demonstráció során részletesen elemzik, milyen kihívásokkal szembesül az érzelmek pontos tolmácsolása angol és kínai nyelven egyaránt.
Szó esik a modell architektúrájáról is: multispeaker, multi-turn generatív keret, paralingvisztikus és dialektális feltételek kombinációjával. Az encoder-decoder struktúra mellett speciális embeddingek felelősek a beszélő, tartalom és érzelem egyidejű szétválasztásáért.
A videóban példákat hallhatunk természetesnek tűnő, humoros, illetve érzelmes podcast dialógusokra, amelyek felvetik a kérdést: képes-e a mesterséges intelligencia valódi emberi kapcsolatok érzetét kelteni beszéd útján?










