A
A
  • Angol
  • Magyar
  • 9 perc

Új eszköz az AI modellek biztonsági auditálására: itt a Battery az Enthropic-tól

Az Enthropic új eszköze, a Battery lehetővé teszi a mesterséges intelligencia modellek automatikus, nyílt forráskódú biztonsági auditálását, jelentősen leegyszerűsítve a fejlesztők számára a modellek tesztelését különböző használati esetekben.

Az Enthropic cég kifejezetten az AI biztonságát és védelmét tartja szem előtt, most pedig egy új, nyílt forráskódú eszközt mutatnak be, amely a mesterséges intelligencia modellek biztonsági auditját automatizálja. Az eszköz neve Battery, amely elsősorban a modellek viselkedésének ellenőrzésére alkalmas interaktív szimulációkon keresztül.

Az eszköz képes több tesztet párhuzamosan végrehajtani: egy automatizált auditáló ügynök folyamatosan kérdéseket tesz fel a kiválasztott modellnek, majd egy ítélőbíró elemzi a válaszokat, kvantitatív pontszámokat rendel hozzájuk, kiemelve a legaggasztóbb részleteket. Így a manuális vizsgálatok órái vagy hete is lecsökkenthetők percekre.

A szerző bemutatja, hogyan lehet a Battery-t helyileg telepíteni, különösen Olama alapú modellekkel. Szóba kerülnek olyan helyzetek, amikor a tesztelések különösen nehézkesek, például etikátlan viselkedés vagy veszélyes kérdések felismerésekor, valamint hogy miként nyújt hatékony támogatást a Battery az ilyen esetek kezelésére.

Különféle felhasználási lehetőségek is szóba kerülnek, ideértve a modellek előzetes ellenőrzését, összehasonlító teszteléseket, valamint vörös csapatos (red team) vizsgálatokat belső céges környezetben. A kvantitatív eredmények emberi értékeléssel párosulnak, ami precízebb elemzést biztosít. Az eszközt különösen ajánlott helyben, saját gépen használni, hogy elkerülhetők legyenek a felhőalapú szolgáltatások költségei.