Ebben a videóban a készítő egy rendkívül ismert AI hackert, Ply the Liberatort hívja ki, hogy megpróbáljon betörni a saját, személyes mesterséges intelligencia rendszerébe.
Ply ismertségét különösen az adja, hogy rövid időn belül képes áttörni a legnépszerűbb AI modellek védelmét. Ezúttal öt próbálkozást kap, hogy feltörje az „open claw” rendszert, amely csupán egy e-mail címhez kapcsolódik, és amelynek mögötti architektúráról, modellekről, biztonsági intézkedésekről nincsenek részletek megosztva vele.
A felvételen Ply különböző, saját fejlesztésű eszközöket, például a Parcel Tongue nevű toolkitet, és trükkös támadási mintákat alkalmaz, például tokenade támadásokat, hogy beazonosítsa vagy megkerülje a rendszer védelmét. Felmerül a kérdés, vajon elegendőek-e az automatikus szűrők, a modellválasztás vagy a mennyiségi korlátozások ahhoz, hogy egy elkötelezett támadót megállítsanak?
Külön érdekesség, hogy Ply szóba hozza az úgynevezett ‘siege attack’ módszertant és a különböző prompt injection stratégiákat, amelyek célja a rendszer túlterhelése vagy logikai manipulációja. A videó során végigkövethetjük, hogyan keresi Ply a gyenge pontokat, illetve milyen válaszokat ad a rendszer a különféle kísérletekre.
A bemutatott helyzet rámutat arra, mennyire kritikus a megfelelő modell (például egy reasoning, robust AI-modell) kiválasztása és a különféle védelmi rétegek kombinációja, ha az adattulajdonos valóban biztonságban szeretné tudni a rendszerét. Mennyire lehet ellenálló egy rendszer a legújabb támadásokkal szemben, és mik azok a minimális biztonsági elvárások, amelyek ma már elengedhetetlenek?










