A
A
  • Angol
  • Magyar
  • 8 perc

Olcsó és nyílt forráskódú hanggenerálás SoproTTS-sel: kreativitás egy kis GPU-val

Egy kreatív, nyílt forráskódú TTS-modell installálását és tesztelését mutatják be, miközben a sikeres voice cloning, a modell architektúrája és a fejlesztés akadályai is szóba kerülnek.

A fejlesztők kreativitását és elhivatottságát mutatja, hogy már egyetlen, olcsó GPU-val is képesek fejlett szöveg-beszéd modelleket készíteni. Az itt bemutatott SoproTTS erre kiváló példa: Samuel Vidorino egyoldalas, angol nyelvű, viszonylag kicsi (135 millió paraméteres) TTS modelljét a közösség számára is elérhetővé tette.

Az installációs folyamat során felmerülő nehézségek, valamint a szükséges fejlesztői ismeretek is előkerülnek – hogyan érdemes klónozni a GitHub repót, mikor használjunk pip telepítést, vagy hogyan célszerű beállítani egy virtuális környezetet a zökkenőmentes futtatáshoz. A modell tesztelése során különféle hangminőségű referencia-audiókat próbálnak ki: kitűnik, hogy megfelelő bemenettel egészen jó voice cloning érhető el, gyengébb minőségű hangmintával azonban jelentős kompromisszumokra számíthatunk.

Felvetődik a kérdés, mennyire lehet megbízható vagy rugalmas egy ilyen alacsony erőforrásigényű nyílt forráskódú TTS megoldás, főleg, ha egyszerű architektúrákat – például dilatált konvolúciós rétegeket és kereszt-attenciót – használ a megszokott transzformer helyett. Emellett szó esik a streaming lehetőségekről, a késleltetésről és arról, mennyire könnyen elérhetővé váltak ezek a fejlett AI-eszközök egyéni fejlesztők vagy kisebb csapatok számára is.

A bemutató több ponton ösztönöz további kísérletezésre, és kitér arra is, hogyan lehet ilyen projekteket megosztani a közösséggel, illetve milyen visszajelzések, támogatások járulhatnak hozzá a nyílt forrás ökoszisztéma fejlődéséhez.