Az előadás központi témája, hogy miként lehet saját adatainkkal kiegészíteni a nagy nyelvi vagy vizuális nyelvi modellek tudását. Erre a Retriever-Augmented Generation, röviden RAG, jelenthet praktikus, költséghatékony és széles körben használt megoldást.
Felvetődik a kérdés, hogyan kezeljük a különböző típusú, például képeket, táblázatokat, diagramokat is tartalmazó multimodális adatokat, hiszen a legtöbb jelenlegi RAG eszköz főként szövegekkel működik jól. Ebben az összefüggésben mutatkozik be a Cohere nevű vállalat új modellje, mely kifejezetten üzleti dokumentumok vizuális feldolgozásában ígér nagy teljesítményt.
A bemutató gyakorlati lépéseken keresztül vezet végig egy vision RAG pipeline nulláról történő kiépítésén. Külön hangsúlyt kap, hogy miként lehet képeket beágyazásokká (embeddingeké) alakítani, majd hasonlóság-alapú keresést végrehajtani saját adatbázisban. A szemléltetett példák során többek között YouTube borítóképeket használnak tesztesetként, és szó esik arról, hogyan képes a rendszer ezekből kinyerni információt (pl. ki szerepel a képen, milyen tevékenységet végez stb.).
További érdekes kérdések merülnek fel a multimodális feldolgozás korlátaival, a szöveges és vizuális adatok kombinációjával, illetve a modellek finomhangolásának szükségességével kapcsolatban.