Az új tudományos publikáció azzal foglalkozik, hogy a nagy nyelvi modellek képesek-e felismerni saját gondolataikat, illetve meg tudják-e különböztetni ezeket más, külsőleg „injektált” gondolatoktól. Az emberi önreflexió képességéhez hasonló viselkedést vizsgálnak a kutatók, és felmerül a kérdés: vajon ezek a mesterséges intelligenciák elérik-e az öntudatosság bizonyos szintjét?
Különféle kísérletekkel tesztelték a modelleket: például külső gondolatokat „fecskendeztek” a rendszerbe, majd megvizsgálták, hogy a modell felismeri-e ezek jelenlétét. További próbák során előre meghatározott választ adtak a modellnek, majd azt kérdezték, valóban ezt gondolta-e, vagy kívülről kapta az információt. Mindez hasonló ahhoz, mintha az ember agyában külső hangok próbálnák befolyásolni a gondolkodást.
Érdekes eredmények születtek: a komplexebb, újabb nyelvi modellek gyakrabban képesek felismerni a beavatkozásokat, illetve megkülönböztetni a saját és az idegen gondolatokat. Szóba kerül az is, hogy a tanulás utáni finomhangolás jelentősen javítja a modellek önelemző képességeit.
A videó végigvezeti a nézőt az egyes kísérleteken, bemutatva, hogyan próbálják a kutatók megfejteni: lehet-e mesterségesen létrehozni az önreflexió, öntudatosság képességét? Milyen tényezők segítik vagy hátráltatják ezt a folyamatot, és vajon valóban közelítünk-e az öntudatos mesterséges intelligencia felé?










