A
A
  • Angol
  • Magyar
  • 13 perc

KugelAudio Open: új szint az európai nyelvek hangszintézisében

Új nyílt forráskódú hangszintetizátor jelent meg, amely látványos minőséget ígér az európai nyelveken, sőt, néhányban még a piacvezető rendszereknél is jobban teljesít.

A mesterséges intelligencia hangszintetizátorok területe folyamatosan fejlődik, de az európai nyelvekkel kapcsolatban sokáig fennálltak hiányosságok, főként a nyílt forráskódú megoldások tekintetében. Egy új technológia, a KugelAudio Open, most ezt a rést igyekszik betölteni, és a felhasználók számos európai nyelv esetében is kipróbálhatják a minőségi szöveg-beszéd átalakítást.

A tesztek alapján a rendszer nemcsak hogy felveszi a versenyt az olyan kereskedelmi óriásokkal, mint az ElevenLabs, de adott esetben túl is szárnyalja azokat, köszönhetően a több mint kétszázezer órányi hanganyaggal történt tanításnak és a fejlett architektúrának. Az architektúra hátterében a Microsoft Vibe nevű technológia áll, amely jelentősen hozzájárul a természetes és élethű beszédszintézishez.

A nézők különféle európai nyelveket hallhatnak bemutatásra, többek között lengyelt, bolgárt, dán, francia, spanyol, olasz, német, portugál, holland, orosz, ukrán, cseh, román, magyar és török nyelvet. A rendszer nemcsak hangszintézissel, hanem hangklónozással, vízjelezéssel, sőt érzelmek – például düh vagy vidámság – kifejezésével is képes megbirkózni.

Felmerülnek továbbá kérdések a minőség, a VRAM-igény, a nyelvek szerinti eltérések és az egyes hangminták hitelessége kapcsán is. A tartalom emellett rávilágít arra, hogy mely nyelvek támogatottsága a legerősebb, hol várhatóak még fejlesztések a jövőben, illetve bemutatja a KugelAudio Open felhasználói élményének főbb pontjait is.