A
A
  • Angol
  • Magyar
  • 12 perc

Valós idejű beszédfordítás mesterséges intelligenciával: bedobás a mélyvízbe a Hibiki Zero fordítómotorral

A videó egy ingyenes, helyben futtatható AI-modellt mutat be, amely valós időben fordítja és szintetizálja a beszédet, megőrizve a beszélő egyedi hangját.

A Kyoai bemutatta a Hibiki Zero nevű, valós idejű beszédfordító AI-modellt, amely képes különböző nyelvekről angolra fordítani hangban, miközben megőrzi az eredeti hangszínt és a beszélő jellemzőit.

Ebben az anyagban lépésről lépésre követhetjük a telepítést egy helyi gépen, valamint szó esik a modell felépítéséről és további érdekes funkcióiról is. Bemutatásra kerül, hogy milyen hardveres feltételek szükségesek a futtatáshoz, és hogyan fut egy Nvidia RTX 6000-es GPU-n.

Különböző nyelveken – például franciául, spanyolul, németül és portugálul – történő élő fordítás lehetőségeit is vizsgálják. Felmerül a kérdés, milyen pontossággal és mennyire használható a modell valós időben, és hol jelentkezhetnek hibák, ha a helyi asztali környezetbe van telepítve.

A demók, valamint a tesztképek bemutatása során kiderül, hogy különböző körülmények között, például az online demó oldalon és offline, hogyan működik megbízhatóbban a rendszer. Szóba kerül a transzkripciós és batch mód is, illetve hogy ezekben a módokban mennyire jól teljesít a valós idejű felhasználással összehasonlítva.