A videó betekintést nyújt egy friss tudományos kutatásba, amely arra fókuszál, hogyan befolyásolja a bemeneti tokenek mennyiségének növelése a nagy nyelvi modellek (LLM-ek) teljesítményét.
Részletesen vizsgálja, hogy a hosszú kontextusú modellek – például a Claude, GPT, Gemini és Quen – hogyan boldogulnak, amikor egyre több információ kerül a kontextusukba. Érdekes megfigyeléseket tesz arra, hogy bizonyos típusú feladatok, például a „needle in a haystack” jellegű keresések esetén a modellek teljesítménye először stabil marad, majd ahogy a feladat összetettebbé válik vagy zavaró elemek (distractorok) jelennek meg, a pontosság gyorsan romlik.
A kutatás többféle kísérleti beállítással dolgozik: különböző hasonlóságú kérdés-válasz párokat, zavaró szövegrészeket és strukturáltságban eltérő szövegkörnyezetet alkalmaznak. Olyan problémákat vetnek fel, mint a valós adatokból származó „distractorok” hatása, illetve hogy a releváns információk nehézkes megtalálása milyen mértékben gátolja a modellek munkáját hosszú kontextusban.
A videó emellett összehasonlítja a modellek teljesítményét akkor, amikor teljes kontextust kapnak, szemben azzal, amikor a kontextus csak a feladat szempontjából releváns részeket tartalmazza. Itt különösen hangsúlyossá válik a „kontektsztus-mérnökség” (context engineering) jelentősége.
A bemutató rámutat arra is, milyen rejtett nehézségeket okoznak a valós, nem ideális adathalmazok, valamint példákat mutat arra, hogyan érdemes tesztelni és értékelni a modellek hosszú kontextussal kapcsolatos képességeit.