A
A
  • Angol
  • Magyar
  • 13 perc

Hogyan építsd ki saját vision RAG pipeline-odat lépésről lépésre

Ebben a videóban gyakorlati módon ismerheted meg, hogyan egészítheted ki saját képes adataiddal egy AI-modell tudásbázisát egy egyszerűen kiépíthető vision RAG pipeline segítségével.

Az előadás központi témája, hogy miként lehet saját adatainkkal kiegészíteni a nagy nyelvi vagy vizuális nyelvi modellek tudását. Erre a Retriever-Augmented Generation, röviden RAG, jelenthet praktikus, költséghatékony és széles körben használt megoldást.

Felvetődik a kérdés, hogyan kezeljük a különböző típusú, például képeket, táblázatokat, diagramokat is tartalmazó multimodális adatokat, hiszen a legtöbb jelenlegi RAG eszköz főként szövegekkel működik jól. Ebben az összefüggésben mutatkozik be a Cohere nevű vállalat új modellje, mely kifejezetten üzleti dokumentumok vizuális feldolgozásában ígér nagy teljesítményt.

A bemutató gyakorlati lépéseken keresztül vezet végig egy vision RAG pipeline nulláról történő kiépítésén. Külön hangsúlyt kap, hogy miként lehet képeket beágyazásokká (embeddingeké) alakítani, majd hasonlóság-alapú keresést végrehajtani saját adatbázisban. A szemléltetett példák során többek között YouTube borítóképeket használnak tesztesetként, és szó esik arról, hogyan képes a rendszer ezekből kinyerni információt (pl. ki szerepel a képen, milyen tevékenységet végez stb.).

További érdekes kérdések merülnek fel a multimodális feldolgozás korlátaival, a szöveges és vizuális adatok kombinációjával, illetve a modellek finomhangolásának szükségességével kapcsolatban.