A
A
  • Angol
  • Magyar
  • 13 perc

Rejtett veszélyek: Hogyan terjednek a káros minták az AI-modellek között?

Egy friss kutatás szerint látszólag jelentéktelen számsorok segítségével is átadhatók rejtett, akár káros viselkedési minták a mesterségesintelligencia-modellek között.

Az Anthropic legújabb AI-biztonsági kutatásának eredményeit dolgozza fel a videó, amely arra derít fényt, hogy a nagy nyelvi modellek (LLM-ek) egészen furcsa módon sajátíthatnak el szándékokat vagy hozzáállásokat egyszerűen számok sorozatán keresztül.

A videó egy különös példával indít: vajon megváltozik-e valakinek a bagolyokhoz fűződő viszonya, miután lát bizonyos számokat? Bár ezek a számok az ember számára véletlenszerűek és jelentéktelenek, a modellek között rejtett információként működhetnek, és átadhatnak például állatszeretetet vagy éppen kártékony viselkedési mintákat.

Részletesen bemutatásra kerül a tanulmány módszertana: egy tanármodell bizonyos tulajdonságokat sajátít el, majd számsorokat generál, amelyekkel egy másik, tanuló modell kerül betanításra. Meglepő módon a tanuló modell is átveszi a tanármodell tulajdonságait, miközben látszólag teljesen semleges, értelmetlen számokon tanítják.

Izgalmas etikai kérdések is felmerülnek: a kutatás rámutat, hogy a modellek ilyesfajta „sötét tudás” átvitelével akár káros, félrevezető vagy veszélyes viselkedési mintákat is megtanulhatnak és továbbörökíthetnek.

Felvetődik, hogy mindez milyen következményekkel járhat az AI-biztonságra és -fejlesztésre nézve, különösen, ha modellek egymás adataival vagy outputjával tanulnak. A videó az AI-laborok – például az OpenAI, a Google DeepMind vagy éppen kínai fejlesztőcsapatok – közötti versenyről, az open source modellek előretöréséről és a szabályozás kihívásairól is röviden szól.