Egy új, 4 milliárd paraméteres, nyílt forráskódú szöveg-beszéd modell, a Voxtral 4B kerül bemutatásra, amely kilenc nyelven támogatja a természetes beszéd generálását. Részletesen ismertetik az installációs folyamatot, valamint a legfontosabb konfigurációs lépéseket és használt eszközöket, mint például a VLM Omni-t, amely szintén folyamatos fejlesztéseken esett át.
A bemutató során szemléletesen kerül bemutatásra, hogyan teljesít a modell a különböző nyelveken – angol, francia, spanyol, német, olasz, portugál, holland, arab és hindi nyelven hallgathatók meg tesztmondatok. A fókuszban elsősorban a természetes prozódia és az érzelmi kifejezés megvalósíthatósága áll, azaz hogy mennyire élethű, emberi hangzású a mesterséges beszéd a különféle érzelmi állapotok szimulálása esetén.
További érdekességként a videó kitér a rendszer erőforrásigényére, amely lehetővé teszi a valós idejű felhasználást, például ügyfélszolgálati alkalmazásokban vagy call centerekben. Vizsgálatra kerül a hangklónozás pontossága, a különböző előre beállított hangprofilok és azok testreszabási lehetőségei is.
Felvetődik több kérdés is: vajon mennyire képes visszaadni a modell a humanizált hangot és a prozódiai természetességet? Valódi alternatívát jelent-e a zárt forráskódú megoldások, például az ElevenLabs számára? Melyek lehetnek az előnyei és esetleges kompromisszumai a technológia jelenlegi szintjén?










