A
A
  • Angol
  • Magyar
  • 8 perc

Új eszköz az AI-modellek belső működésének megértésére az Anthropictól

Az Anthropic új, nyílt forráskódú eszközt mutat be, amely betekintést enged a nagy nyelvi modellek belső működésébe, és segíti az AI-biztonság és értelmezhetőség kutatását.

Zárt vállalatok is egyre gyakrabban tesznek közzé nyílt forráskódú eszközöket, ezúttal az Anthropic jelentkezett a Circuit Tracer nevű fejlesztésével. A fejlesztők célja, hogy az eszközzel betekintést nyújtsanak a nagy nyelvi modellek belső működésébe, különösen az úgynevezett interpretálhatóság és AI-biztonság kutatásában.

A Circuit Tracer attribúciós gráfokat hoz létre, amelyek bemutatják, hogyan hatnak egymásra egy neurális hálózat különböző komponensei – például transzkóder jellemzők, hibapontok és bemeneti tokenek –, és hogyan járulnak hozzá a végső válaszhoz. A videó részletesen bemutatja, hogyan lehet ezt az eszközt telepíteni a Google Colab segítségével, valamint a modell letöltését és használatát, továbbá hozzáférést az adatokhoz és grafikonokhoz a Neuronedia platformon.

Az eszközt leginkább az interpretálhatóság és AI-biztonság területén használják, mivel segít feltárni a modellek belső döntési folyamatait. A felhasználók saját bemenetekkel is kipróbálhatják, hogyan változik a modell kimenete, ha bizonyos belső jellemzőket vagy „szuper csomópontokat” kikapcsolnak. Az eszközzel az elemzők nemcsak a modellek működését vizualizálhatják, hanem célzottan be is avatkozhatnak a működésükbe, hogy ellenőrizzék hipotéziseiket.

Felmerülhet a kérdés, hogy ezekkel az eszközökkel mennyire lehet valóban megérteni egy gépi tanulási modell döntéseit, valamint hogy az ilyen fejlesztések mennyire könnyen integrálhatók a szélesebb AI-közösségbe. A bemutatott eljárások egyben ráirányítják a figyelmet arra, hogy milyen komoly szükség van a nyílt, bárki által vizsgálható AI-biztonsági kutatásokra.