A
A
  • Angol
  • Magyar
  • 8 perc

Microsoft VibeVoice helyi telepítése és rejtélyes eltűnése

A Microsoft VibeVoice új hangmodelljének helyi telepítését, beállítását és képességeit ismerhetjük meg, miközben izgalmas technikai és jogi kérdések is felmerülnek a modellel kapcsolatban.

Az utóbbi napokban a Microsoft egy új, VibeVoice nevű hangmodelljének gyors felemelkedését és az ahhoz kapcsolódó furcsa történéseket követhettük nyomon. Először is, a kódot tartalmazó GitHub repót a vállalat eltávolította, majd a nagyobb modellverzió is elérhetetlenné vált. Kiderül azonban, hogy a modellt kínai felhasználók segítségével egy alternatív weboldalról még mindig be lehet szerezni, bár így már külön odafigyelést igényel a licencelési feltételek betartása.

A bemutatott 1,5 milliárd paraméteres változat telepítésének lépéseit ismerhetjük meg Ubuntu rendszeren, Nvidia RTX A6000 GPU-val. Az oktató a szükséges csomagok – többek között a Torch és a Transformers – pontos verzióit is megadja, valamint azt is bemutatja, hogyan lehet a modellt akár CPU-n is futtatni, amely ugyan lassabb, de egyszerűbb feladatokra megfelel.

A VibeVoice hangmodell fő erősségei közé tartozik a több szereplős párbeszédek, az érzelmek felismerése és a beszélgetés természetes ritmusának megjelenítése. Ugyan a letöltött változat nem olyan kifejező, mint a törölt nagyobb modell, mégis jól használható hosszabb felvételek készítéséhez, és skálázható különböző alkalmazásokhoz is.

A telepítési folyamat során több hasznos tippet is kapunk: például hogyan lehet a felhasználói felületen hangszereplőket váltani, vagy szóba kerül a VRAM-fogyasztás optimalizálása. A végén egy gyors bemutatóban a modell több szereplő és különböző érzelmi tónusok megszólaltatására is képesnek bizonyul, sőt, röviden még éneklő hangokat is generál.

A videó rámutat, hogy a VibeVoice egy modern, token diffúziós keretrendszert használ, amely nagy nyelvi modellt alkalmaz a kontextusértelmezéshez, és diffúziós mechanizmussal teremti meg a természetes hanghatásokat. Felvetődik néhány érdekes kérdés is a nagyobb modell visszavonásának indokaival és a Microsoft jövőbeli terveivel kapcsolatban.