A videó lépésről lépésre bemutatja, hogyan lehet nagy nyelvi modellek (LLM) értékelését egyszerűen beállítani, különös tekintettel az úgynevezett RAG (retrieval-augmented generation) értékelésekre. Az előadó egy valós életből vett példával szemlélteti a menetet: egy hotel chatbotját akarják tesztelni annak érdekében, hogy a vendégek helyes és pontos információkat kapjanak a szálloda házirendjével kapcsolatban.
A folyamat elején a szükséges feltételek – a tudásbázis, a tesztkérdések (prompts), és a kiértékelési eredmények – megfelelő elhelyezése és kezelése kerül szóba, mindez az Amazon S3 tárhelyszolgáltatáson keresztül. Az IAM felhasználók és jogosultságok beállítása szintén fontos lépés, amely biztosítja az értékelések biztonságos futtatását.
Kiemelt figyelmet kap, hogyan hozhatunk létre tudásbázisokat vektortárolóval, hogyan tölthetjük fel tesztkérdéseinket, és miként definiálhatjuk a különböző értékelési metrikákat – például helpfulness (segítőkészség), correctness (helyesség) vagy akár egyedi, saját kritériumokat.
Az illusztráció során az előadó nemcsak a Bedrock platform funkcióit mutatja be, hanem rávilágít arra is, hogy miként tudunk különböző AI modelleket összehasonlítani saját adatkészleteinken, így valós képet kapva arról, melyik modell teljesít legjobban adott tudásbázison. Izgalmas kérdések merülnek fel: hogyan mérhető egy chatbot válaszainak minősége? Milyen szempontokat érdemes figyelemmel kísérni az értékelés során? Hogyan lehet testre szabni az egész rendszert egy adott felhasználási esetre?