A
A
  • Angol
  • Magyar
  • 19 perc

OpenAI GPT-RealTime: A valós idejű hangmodellek új generációja

Az OpenAI új, valós idejű beszéd- és hanggeneráló modellje alapjaiban változtatja meg a hangalapú AI szolgáltatások piacát, valamint új lehetőségeket és kérdéseket vet fel a fejlesztők és a felhasználók számára.

Az OpenAI legújabb fejlesztését, a GPT-RealTime modellt mutatja be ez a videó, amely forradalmasítja a valós idejű beszédfelismerést és szövegalapú hangszolgáltatásokat. Rengeteg startup és fejlesztő vállalkozás dolgozott hasonló rendszereken, azonban az OpenAI megoldása új mércét állít a területen.

A fejlett beszédfeldolgozó modell képes teljesen természetes, megszakításmentes beszélgetést folytatni, jelentősen csökkentve a késleltetést a hagyományos rendszerekhez képest. Emellett extrém rugalmasságot mutat több nyelv kezelése, nyelvváltások, illetve olyan nonverbális jelek felismerése terén, mint a nevetés vagy a hangszínre, stílusra adott finom instrukciók.

Külön kiemelt figyelmet kapnak az új fejlesztői funkciók: a valós idejű API támogatja már a távoli MCP szervereket, képes képi inputot értelmezni, valamint támogatja a SIP telefonhívásokat is, ezáltal közvetlen kapcsolatot biztosítva a telefonhálózathoz.

A demonstráció során nemcsak a technikai képességeket és a beszélgetési minőséget tesztelik, hanem betekintést kapunk az integrációk lehetőségeibe, például funkcióhívások, rendszerutasítások vagy külső eszközök csatlakoztatásán keresztül. Felmerül a kérdés: vajon hogyan viszonyulnak a versenytársak, különösen a nyílt forráskódú fejlesztői közösségek ehhez a fejlett, de zárt rendszerhez?

A videóban szó esik az árazásról, a modellek sokféle hangjának kipróbálásáról – köztük új női és férfi karakterekkel – valamint arról, hogy mennyire képes a rendszer a felhasználói promptokat és beszélgetési struktúrákat rugalmasan követni, illetve hol tapasztalhatók még hibák vagy hiányosságok.