Az elmúlt hetek egyik legfelkapottabb témája, hogy a mesterséges intelligencia (AI) valójában mennyire képes valódi logikai következtetésekre, vagy csak a mintázatok memorizálására és visszaadására alkalmas-e. Egy, az Apple-től származó kutatási anyag több tucat millió emberhez jutott el, és a médiában is nagy visszhangot váltott ki, különösen olyan nagy lapoknál, mint a Guardian. A publikáció azt állítja: a nagy nyelvi modellek, például ChatGPT vagy Claude, nem hagyományos szoftverek, hanem valahol a kiszámíthatatlan és a determinisztikus működés között helyezkednek el.
Felmerül a kérdés, hogy ezek a modellek miért hibáznak bonyolultabb feladatoknál, például a Hanoi-torony vagy egy összetett szorzás esetében. Noha látszólag ismerik a megoldási algoritmusokat, a nagy komplexitás miatt teljesítményük látványosan romlik. Érdekes dilemma, hogy a modellek képesek használni különféle eszközöket (pl. kódgenerálás) a helyes eredményhez – de ha ezt nem tehetik, gyakran téves választ adnak, vagy egyszerűen „kreatívan” hallucinálnak egy hihető, ám helytelen eredményt.
Sokan gondolják úgy, hogy a mostani AI-hullám túlzottan fel van fújva, mások pedig egyenesen munkahely-apokalipszist vetítenek előre. Ugyanakkor a legtöbb kutató szerint a jelenlegi nyelvi modellek jelentős korlátokkal működnek: például a tokenlimit miatt összetettebb feladatokra nem képesek kellően részletes választ adni. Megfontolandó, hogy ezek a rendszerek mennyire alkalmasak valódi alkalmazásokra, és milyen emberi szintű hibákat reprodukálnak.
Szóba kerülnek továbbá a különböző benchmarkok, amelyeken az OpenAI, Google vagy Anthropic legújabb modelljei szerepelnek. Kitérnek rá, hogy a cégek gyakran nem egymással összehasonlítva tesztelik szoftvereiket, vagy éppen kiemelik a kiemelkedő, de ritka eredményeket. Felvetődik, hogy az igazán jelentős áttörések akkor jöhetnek, ha a nyelvi modelleket szimbolikus rendszerekkel kombináljuk, valamint hogy az eszközhasználat jelentősen bővítheti a modellek képességeit.