A
A
  • Angol
  • Magyar
  • 12 perc

Chatterbox TTS telepítés: érzelmek és helyi tesztek bemutatása

A Chatterbox egy új, nyílt forráskódú angol szövegbeszéd-modell, amely helyi installációval tesztelhető, és különleges érzelmi vezérlési funkciókat kínál.

Ebben a videóban egy új, nyílt forráskódú szövegbeszéd-modellel ismerkedhetünk meg, amelynek neve Chatterbox. Az alkotó bemutatja, hogyan telepíthető és futtatható helyben ez a kizárólag angol nyelvű TTS (Text-To-Speech) megoldás, amelyet a Resemble AI fejlesztett ki, és MIT licenc alatt érhető el.

Részletesen bemutatásra kerül a modell technikai háttere: a Chatterbox egy 0,5 milliárd paraméteres Llama architektúrára épül, jelentős mennyiségű audió adattal tanították, és képes különböző hangminták gyors klónozására. Felmerül a kérdés, mennyire pontosan tudja utánozni az egyedi hangokat, illetve milyen szintű érzelmi átmeneteket képes kezelni a generált beszédben.

A működés közben alkalmazott tesztek során felmerül, hogy a modell hogyan birkózik meg az érzelmek kifejezésével, például meglepetéssel vagy szomorúsággal, valamint mennyire képes alkalmazkodni különböző nyelvi környezetekhez. Kísérleti jelleggel spanyol, német, kínai és más nyelveken is próbálkoznak vele, amelyek érdekes eredményekhez vezetnek.

A videó kitér a rendszer egyik különlegességére is: az „emotion exaggeration” funkcióra, amely lehetővé teszi az érzelmi kifejezés intenzitásának szabályozását a szintetikus beszédben. Emellett szó esik a beépített digitális vízjelezésről, amely a felelősségteljes AI-használatot szolgálja.

További izgalmas kérdés, hogy a Chatterbox mikor lesz képes támogatni más nyelveket is, illetve milyen előnyei vagy korlátai vannak a jelenlegi, angol alapú rendszernek. A videó végigvezeti a nézőt a telepítési lépéseken, bemutatva az egyszerű használatot, miközben felveti a nyílt forráskódú TTS jövőjével kapcsolatos kérdéseket is.