A
A
  • Angol
  • Magyar
  • 10 perc

Voxtral 4B: Az új többnyelvű TTS megoldás részletei és tesztjei

A Voxtral 4B egy új, nyílt forráskódú TTS megoldás, amely kilenc nyelvű beszédfeldolgozással és emberközeli prozódiával hívja fel magára a figyelmet.

Egy új, 4 milliárd paraméteres, nyílt forráskódú szöveg-beszéd modell, a Voxtral 4B kerül bemutatásra, amely kilenc nyelven támogatja a természetes beszéd generálását. Részletesen ismertetik az installációs folyamatot, valamint a legfontosabb konfigurációs lépéseket és használt eszközöket, mint például a VLM Omni-t, amely szintén folyamatos fejlesztéseken esett át.

A bemutató során szemléletesen kerül bemutatásra, hogyan teljesít a modell a különböző nyelveken – angol, francia, spanyol, német, olasz, portugál, holland, arab és hindi nyelven hallgathatók meg tesztmondatok. A fókuszban elsősorban a természetes prozódia és az érzelmi kifejezés megvalósíthatósága áll, azaz hogy mennyire élethű, emberi hangzású a mesterséges beszéd a különféle érzelmi állapotok szimulálása esetén.

További érdekességként a videó kitér a rendszer erőforrásigényére, amely lehetővé teszi a valós idejű felhasználást, például ügyfélszolgálati alkalmazásokban vagy call centerekben. Vizsgálatra kerül a hangklónozás pontossága, a különböző előre beállított hangprofilok és azok testreszabási lehetőségei is.

Felvetődik több kérdés is: vajon mennyire képes visszaadni a modell a humanizált hangot és a prozódiai természetességet? Valódi alternatívát jelent-e a zárt forráskódú megoldások, például az ElevenLabs számára? Melyek lehetnek az előnyei és esetleges kompromisszumai a technológia jelenlegi szintjén?