A
A
  • Angol
  • Magyar
  • 9 perc

Új szöveg-beszéd AI modell CPU-n: élethű hangok GPU nélkül is

Bemutatásra kerül a NeuTTS-Air új, CPU-n is futtatható szöveg-beszéd AI modell, amely kisméretű paraméterezéssel és egyszerű codecekkel biztosít élethű beszédet helyben, GPU nélkül, akár beágyazott rendszerekhez is.

A bemutatott tartalom a NeuTTS-Air új szöveg-beszéd (TTS) mesterséges intelligencia modellt ismerteti, amelynek kiemelkedő jellemzője, hogy kizárólag CPU-n képes futni, GPU nélkül is működik, így szélesebb körben elérhető kisebb eszközökön is.

Különlegessége, hogy kisméretű (0,5 milliárd paraméteres) nyelvi modellt ötvöz egyszerű codec-architektúrával, lehetővé téve valós idejű, élethű beszédszintézist laptopokon, telefonokon vagy akár egy Raspberry Pi-n is – mindezt hatékony és alacsony erőforrásigény mellett.

Az eszköz képes három másodperces hangminta alapján azonnali hangklónozásra, és vízjelezett audio kimeneteket alkalmaz a beépített biztonság érdekében. Egyedi codec révén magas minőséget biztosít kis bitrátán is, ami ideálissá teszi például játékokhoz, beágyazott rendszerekhez vagy megfelelőségi-érzékeny alkalmazásokhoz.

A tartalom részletesen bemutatja a telepítés lépéseit Ubuntu rendszeren, valamint egy tényleges ‘hands-on’ demón keresztül teszteli a modell képességeit. Kitér a hangklónozási lehetőségekre, a különböző eredményekre, beleértve a lehetséges korlátokat, és hogy pontos szöveg-hang egyezés szükséges a legjobb eredmény érdekében.

Felmerül a kérdés, mennyire alkalmas a modell különböző nyelvekre, illetve hogyan teljesít a minőség más TTS-megoldásokhoz képest, különösen, hogy pusztán CPU-használattal lehetővé válik a helyben történő, privát AI-beszédgenerálás.