Friss kutatási eredmények szerint az OpenAI egy új vizsgálatot tett közzé, amelyben feltárják a nyelvi modellek „hallucinációinak” fő okait, illetve azok lehetséges javítási módjait.
Rávilágítanak, hogy a hallucinációk – tehát a túlságosan magabiztos, mégis hibás válaszok – nem csupán hibák, hanem a jelenlegi modellek tervezési folyamata során alakultak ki. A problémát sokkal inkább a modellek tanításakor használt célfüggvények és visszacsatolási rendszerek mélyebben gyökerező sajátosságai okozzák, mint a hibás adatforrások önmagukban.
Az elemzés kitér arra, hogy a helyes válasz generálása sokkal nehezebb, mint pusztán eldönteni egy adott válaszról, helyes-e vagy sem. Ez a kihívás szorosan összefügg azzal, hogyan értékelik a modellek teljesítményét, illetve miként alkalmaznak büntetéseket vagy jutalmakat az egyes válaszlehetőségekre, például a „Nem tudom” opcióra.
A videó bemutat egy hasonlatot is: a modellek bizonytalanság esetén ugyanúgy „tippelnek”, mint az emberek feleletválasztós dolgozatoknál. Ez a mechanizmus készteti őket konkrét, de téves válaszok adására, mivel a legtöbb mérés csak a helyes választ jutalmazza – ahelyett, hogy a bizonytalanság korrekt kifejezéséért is jutalom járna. Felvetődik, hogy a kiértékelési rendszerek és maga a megerősítéses tanulás folyamata is befolyásolja a hallucinációk arányát.
A videó a kérdéses kutatás mellett példákat és gondolatébresztő kérdéseket is felvet arról, hogyan lehetne a megerősítéses tanulási folyamatot és a teljesítménymérést úgy alakítani, hogy a modellek inkább mondják ki: „nem tudom”, mint hogy alaptalanul magabiztos választ adjanak.