A Kyoai bemutatta a Hibiki Zero nevű, valós idejű beszédfordító AI-modellt, amely képes különböző nyelvekről angolra fordítani hangban, miközben megőrzi az eredeti hangszínt és a beszélő jellemzőit.
Ebben az anyagban lépésről lépésre követhetjük a telepítést egy helyi gépen, valamint szó esik a modell felépítéséről és további érdekes funkcióiról is. Bemutatásra kerül, hogy milyen hardveres feltételek szükségesek a futtatáshoz, és hogyan fut egy Nvidia RTX 6000-es GPU-n.
Különböző nyelveken – például franciául, spanyolul, németül és portugálul – történő élő fordítás lehetőségeit is vizsgálják. Felmerül a kérdés, milyen pontossággal és mennyire használható a modell valós időben, és hol jelentkezhetnek hibák, ha a helyi asztali környezetbe van telepítve.
A demók, valamint a tesztképek bemutatása során kiderül, hogy különböző körülmények között, például az online demó oldalon és offline, hogyan működik megbízhatóbban a rendszer. Szóba kerül a transzkripciós és batch mód is, illetve hogy ezekben a módokban mennyire jól teljesít a valós idejű felhasználással összehasonlítva.









