A
A
  • Angol
  • Magyar
  • 9 perc

Step-Audio R1.1: Valós idejű beszédalapú mesterséges intelligencia saját gépen

Valóban képes-e egy mesterséges intelligencia gondolkodni beszéd közben? A Step-Audio R1.1 dual-brain megközelítése új szintre emeli a valós idejű beszédmodellezést, és akár saját gépen is kipróbálható.

Az új Step-Audio R1.1 beszédalapú MI modell intelligens dual-brain architektúrával működik: egyik ‘agy’ a komplex érvelést, míg a másik a valós idejű, gördülékeny beszédgenerálást végzi. Ez a kettős megközelítés lehetővé teszi a magabiztos, átgondolt válaszokat anélkül, hogy lassulna a reakcióidő.

Egy Ubuntu rendszerre telepítik a modellt, amely GPU-t (Nvidia H100) használ, és a folyamat során szó esik a szükséges szoftverekről, a Hugging Face Hub szolgáltatásról és a Docker képfájlok kezeléséről. A technikai részletek mellett szóba kerül, hogy mennyi számítási kapacitásra van szükség a modell futtatásához, valamint hogyan lehet kezelni a VRAM igényeket.

Különösen érdekes, hogy a Step-Audio R1.1 a beszéd hangmintáin (akusztikus reprezentáción) dolgozik, nem pedig szöveggé alakítással, így hatékonyabb és közelebb áll az emberi gondolkodásmódhoz. Kiemelkedő képessége, hogy több nyelven (elsősorban angolul és kínaiul) képes válaszolni, valamint hogy egyszerre képes okos és gyors reakciókra.

A tartalom kísérletezéssel egészül ki: a bemutató során egy humoros, társas helyzetet leíró hangpromptot is elemez a modell, miközben a társas érzékenységre, empátiára és tanácsadásra vonatkozó intelligenciáját is megmutatja. Felmerülnek kérdések a többnyelvűség kezeléséről, a válaszok minőségéről és a biztonságról is.

Egy másik példa a kreatív tartalomgenerálást teszteli: a modellnek egy HTML+js animációs kódot kell létrehoznia, hogy bemutassa fejlettségét különböző felhasználási területeken. Érdekes témaként merül fel a nyelvi tónusváltás, a válaszok konzisztenciája, az MI döntésképessége és a felhasználói igényekhez igazodó kimenetek generálása.