A
A
  • Angol
  • Magyar
  • 27 perc

Hosszú távú AI kódolás tesztje az Anthropic eszköz segítségével

Egy fejlesztő 24 órán át futtat egy autonóm AI kódolási ügynököt az Anthropic eszköz révén, hogy kiderítse, milyen eredményt nyújt hosszú távon egy ilyen rendszer egy komplex alkalmazás fejlesztésében.

Néhány nappal ezelőtt az Anthropic közzétett egy open-source eszközt, amely lehetővé teszi hosszú ideig futó AI ügynökök építését kódolási feladatokra. Ez a rendszer képes megosztani a munkát több AI ügynök között, és minden ügynök különálló kontextusablakban dolgozik, ami nagyméretű projektek esetén különösen fontos.

A bemutató során a készítő úgy dönt, hogy az Anthropic eszközt 24 órán keresztül folyamatosan működteti Claude kódolási ügynökkel. Az a cél, hogy felmérje, mire képes egy ilyen autonóm rendszer egy összetett alkalmazás, például a claw.ai klón létrehozásában egy teljes nap alatt.

Az egész folyamatot az alapoktól mutatják be: az alkalmazás specifikációját előre megírják (PRD), majd a rendszer automatikusan generál egy több száz részből álló tesztlistát, és inicializálja a projektet. Ezt követően az ügynökök egymás után végzik a feladataikat: implementálnak egy-egy új funkciót, folyamatosan tesztelik a meglévő részeket (regressziós tesztelés), és minden lépést naplóznak a későbbi vizsgálatok számára.

A rendszer több biztonsági és ellenőrzési mechanizmust épít be, például sandbox környezetet, jogosultságokat, valamint a Puppeteer MCP szerver segítségével vizuális ellenőrzést is végez. A folyamat lényegi része az automatizált tesztelés, a git commitok és a korábbi munkamenetek alapján történő visszacsatolás is.

Nagy hangsúlyt kap, hogy a teljes rendszer szinte bármilyen AI kódolási asszisztenssel használható, mivel az eszköz fő mozgatói a promptok és konfigurációs fájlok. Az SDK-beállítások lehetővé teszik saját munkafolyamat kialakítását – akár más modellekkel vagy eszközökkel is.

A videó során felmerülnek olyan kérdések, mint hogy mennyire működik megbízhatóan hosszabb távon egy autonóm AI kódoló rendszer, illetve hol vannak a buktatók a folyamat során (például tokenhasználat, hibakezelés a kód commitokban vagy a kontextusfrissítésben). Fontos szempont az is, hogy humán beavatkozás nélkül mennyire valósulhat meg egy összetett alkalmazás egy ilyen eszköz használatával.