A
A
  • Angol
  • Magyar
  • 54 perc

Hogyan gondolkodnak a nagy nyelvi modellek belülről?

Az Anthropic kutatása alapján betekintést nyerhetünk abba, hogyan lehet feltérképezni a transzformer alapú nagy nyelvi modellek belső működését, és milyen elven születnek komplex képességeik.

Ez az összefoglaló egy érdekes elemzést kínál a nagy nyelvi modellek belső működéséről, amelyet az Anthropic kutatásait felhasználva tekint át. Bemutatja, hogy a transzformer alapú nyelvi modellekben miként jelennek meg váratlan képességek úgy, hogy a fejlesztők ezeket nem programozták be kifejezetten.

Felmerül a kérdés: milyen módszerekkel vizsgálható, hogy a mesterséges intelligencia miként hozza meg döntéseit, például hogyan old meg összetett logikai feladatokat, ír verset vagy működik több nyelven? Erre a ‘circuit tracing’, azaz belső hálózati ábrák elemzésével próbálnak választ keresni, egy úgynevezett helyettesítő modell segítségével, amely értelmezhetőbb köztes jeleket produkál.

Konkrét példákon keresztül követi nyomon, hogy egy-egy adott bemeneti szöveg hatására hogyan aktiválódnak bizonyos jellemzők vagy funkciók, és ezek milyen módon járulnak hozzá az output (kimenet) létrejöttéhez. Vizsgálja többek között azt is, hogy a modellek milyen módon végeznek több lépéses gondolkodást, milyen kapcsolat alakul ki a szavak között az asszociatív hálózatban, illetve miként valósul meg a költészet generálása esetén a rímtervezés.

Érdekes aspektus, hogy vizsgálat tárgyát képezik a többnyelvűséget kezelő belső logikai áramkörök is: vajon léteznek-e a modellen belül nyelvspecifikus gondolkodási csatornák, vagy inkább nyelvfüggetlen absztrakciók? Az is felmerül, hogy a modellen belül mely rétegben történik az absztrakt gondolkodás, és mikor érvényesülnek inkább a nyelv-specifikus jellemzők.

A bemutatott vizsgálati módszerek révén új kérdések nyílnak meg a mesterséges intelligenciák átláthatósága és ellenőrizhetősége terén. A példák során felvetődnek a shortcut-asszociációk, a hallucinációk kialakulásának lehetséges okai, valamint a döntési folyamatok befolyásolásának kísérletei is.