Az OpenAI legújabb fejlesztését, a GPT-RealTime modellt mutatja be ez a videó, amely forradalmasítja a valós idejű beszédfelismerést és szövegalapú hangszolgáltatásokat. Rengeteg startup és fejlesztő vállalkozás dolgozott hasonló rendszereken, azonban az OpenAI megoldása új mércét állít a területen.
A fejlett beszédfeldolgozó modell képes teljesen természetes, megszakításmentes beszélgetést folytatni, jelentősen csökkentve a késleltetést a hagyományos rendszerekhez képest. Emellett extrém rugalmasságot mutat több nyelv kezelése, nyelvváltások, illetve olyan nonverbális jelek felismerése terén, mint a nevetés vagy a hangszínre, stílusra adott finom instrukciók.
Külön kiemelt figyelmet kapnak az új fejlesztői funkciók: a valós idejű API támogatja már a távoli MCP szervereket, képes képi inputot értelmezni, valamint támogatja a SIP telefonhívásokat is, ezáltal közvetlen kapcsolatot biztosítva a telefonhálózathoz.
A demonstráció során nemcsak a technikai képességeket és a beszélgetési minőséget tesztelik, hanem betekintést kapunk az integrációk lehetőségeibe, például funkcióhívások, rendszerutasítások vagy külső eszközök csatlakoztatásán keresztül. Felmerül a kérdés: vajon hogyan viszonyulnak a versenytársak, különösen a nyílt forráskódú fejlesztői közösségek ehhez a fejlett, de zárt rendszerhez?
A videóban szó esik az árazásról, a modellek sokféle hangjának kipróbálásáról – köztük új női és férfi karakterekkel – valamint arról, hogy mennyire képes a rendszer a felhasználói promptokat és beszélgetési struktúrákat rugalmasan követni, illetve hol tapasztalhatók még hibák vagy hiányosságok.