Az Inclusion AI laboratórium Kínából nemrég bemutatta a Ming Omni TTS nevű legújabb fejlesztését, amely egységes hanggenerálási képességeket kínál. A közönség betekintést nyerhet abba, hogy ez a modell hogyan képes egyetlen kimenetben beszédet, környezeti hangokat és zenét is létrehozni, ráadásul részletes vezérlési lehetőségeket nyújt a beszéd hangszíne, érzelme, tempója és dialektusa felett, több mint száz beépített hanggal, illetve új hangokat is létre lehet hozni szöveges leírás alapján.
Az elérhető két modellváltozat – a kisebb, 1,5 milliárd paraméteres és a komolyabb, 16,8 milliárdos – között is tapasztalhatók különbségek, amelyek a minőségre és teljesítményre egyaránt hatással vannak. A felhasználók a Hugging Face vagy ModelScope platformok demóin keresztül próbálhatják ki az eszközt, de az első tapasztalatok szerint a telepítés és használat még nem mindenhol gördülékeny, komoly időráfordítást igényelhet a megfelelő működés beállítása.
Sokoldalúságát jól példázza, hogy a modell képes hangklónozásra: akár egy feltöltött hangminta, akár érzelmek különböző árnyalatai is megjeleníthetők a mesterségesen generált hangokban. Ugyanakkor felmerül a kérdés, hogy az érzelmi árnyalatok mennyire hitelesek, különösen a szeretethez, romantikához kapcsolódó finomabb érzetek visszaadásánál.
A videó során a szerző kipróbálja a háttérzene-generálási funkciót is, ahol különféle stílusok, hangulatok és zenei témák választhatók ki és illeszthetők szöveghez. Felmerül ugyanakkor, hogy a jelenleg elérhető lehetőségek főként angol vagy kínai nyelvre korlátozódnak, valamint hogy a kezelői felület részletei és a dokumentációk még nem elég felhasználóbarátok a nemzetközi közönség számára.
A bemutató kitér arra is, melyek azok a területek, ahol fejlesztésekre van szükség: egyszerűsített telepítés, nyelvi bővítések, globálisabb szemlélet és a finomabb érzelmi visszaadás erősítése. Ezek a kérdések mind azt vetik fel, hogyan fejlődhet tovább egy ilyen innovatív, de még kiforratlan technológia a jövőben.









