A
A
  • Angol
  • Magyar
  • 8 perc

A hangklónozás új szintje: dots.tts modell bemutatója és tesztje több mint 100 nyelven

A dots.tts új, helyi futtatású hangklónozó modelljét ismerhetjük meg, amely 107 nyelvet támogat, részletes tesztekkel és architektúra-bemutatóval.

A dots.tts nevű nyílt forráskódú szoftver telepítésének és tesztelésének módját járja körül a bemutató. Az érdeklődők megtudhatják, miként képes a modell helyi gépen futni, miközben több mint 6 GB VRAM-ot igényel, valamint hogyan lehet a Gradio felület segítségével egyszerűbbé tenni a használatát.

Részletes tesztek mutatják be, hogy 107 nyelven képes megszólalni, és felhasználói hangminták alapján készít minőségi hangklónokat különböző nyelvi példákban. Ilyen például a portugál, arab, német, szlovák és hindi nyelv, amelyekkel szintén kísérleteznek. A hangklónozás során kiderül, mennyire hasonlítanak az eredeti hangokra, valamint mire érdemes figyelni a kiejtés és nyelvi árnyalatok tekintetében.

Az algoritmus működését is áttekinti az előadó: bemutatja, miként alakítja a rendszer a szöveget a kívánt hanggá rövid referenciahang alapján. Szó esik a modell architektúrájáról is, beleértve az audio variációs autoenkódót, a speaker encodert, valamint egy kisebb LLM (Quant 2.5) és diffúziós modell együttes működését.

Egyéb hasznos információk is elhangzanak, például hogyan lehet kipróbálni a dots.tts-t telepítés nélkül, milyen forrásból származnak a teszteléshez használt hangminták, illetve miként lehet további mesterséges intelligencia híreket kapni a csatorna hírlevelén keresztül.