A mesterséges intelligencia hangszintetizátorok területe folyamatosan fejlődik, de az európai nyelvekkel kapcsolatban sokáig fennálltak hiányosságok, főként a nyílt forráskódú megoldások tekintetében. Egy új technológia, a KugelAudio Open, most ezt a rést igyekszik betölteni, és a felhasználók számos európai nyelv esetében is kipróbálhatják a minőségi szöveg-beszéd átalakítást.
A tesztek alapján a rendszer nemcsak hogy felveszi a versenyt az olyan kereskedelmi óriásokkal, mint az ElevenLabs, de adott esetben túl is szárnyalja azokat, köszönhetően a több mint kétszázezer órányi hanganyaggal történt tanításnak és a fejlett architektúrának. Az architektúra hátterében a Microsoft Vibe nevű technológia áll, amely jelentősen hozzájárul a természetes és élethű beszédszintézishez.
A nézők különféle európai nyelveket hallhatnak bemutatásra, többek között lengyelt, bolgárt, dán, francia, spanyol, olasz, német, portugál, holland, orosz, ukrán, cseh, román, magyar és török nyelvet. A rendszer nemcsak hangszintézissel, hanem hangklónozással, vízjelezéssel, sőt érzelmek – például düh vagy vidámság – kifejezésével is képes megbirkózni.
Felmerülnek továbbá kérdések a minőség, a VRAM-igény, a nyelvek szerinti eltérések és az egyes hangminták hitelessége kapcsán is. A tartalom emellett rávilágít arra, hogy mely nyelvek támogatottsága a legerősebb, hol várhatóak még fejlesztések a jövőben, illetve bemutatja a KugelAudio Open felhasználói élményének főbb pontjait is.








