A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 9 perc

KittenTTS: Szöveg-beszéd modellek CPU-n futtatva, zsebméretben

Ismerd meg, hogyan működnek a KittenTTS extra kicsi szöveg-beszéd modellek kizárólag CPU-n, és mely helyzetekben lehetnek a legsokoldalúbbak.

Az egyik legújabb fejlesztésű, kifejezetten kis méretű mesterséges intelligencia szöveg-beszéd modelleket mutatja be a videó. Ezek a KittenTTS nevű modellek három különböző változatban érhetők el: mini, micro és nano, amelyek akár egy zsebben is elférnek, és lokális CPU-n is működnek.

Külön érdekességük, hogy nincs szükség semmilyen GPU-ra, kizárólag CPU-n futnak, így ideálisak alacsony erőforrásigényű eszközökre, például Raspberry Pi alapú telefonokra vagy beágyazott hardverekre. A felhasználási területek között szerepelnek helyi hangasszisztensek, IoT alkalmazások vagy épp böngészőbővítmények is.

A videóban bemutatásra kerül az egyszerű telepítés folyamata és a modellek különböző hangjainak kipróbálása, miközben a készítő megosztja tapasztalatait a sebességről, hangminőségről és az expresszivitásról is. Az ilyen könnyen telepíthető, gyors és kis méretű TTS megoldások komoly előnyt jelenthetnek, azonban több korlát is akad, például a nyelvi és írásjelek kezelésében.

Az alkotó kitér arra is, hogy ezek a modellek főként olyan helyzetekben előnyösek, amikor a hangadatokat nem lehet vagy nem érdemes távoli szerverre küldeni, például adatvédelmi vagy költséghatékonysági okokból. Felmerül az is, hogyan teljesítenek ezek a modellek valós idejű alkalmazásokban vagy több felhasználós környezetben, illetve mennyire lehet őket testre szabni egyedi célokra.