Milyen problémákat okozhat, ha AI alapú keresőrendszerek kizárólag szövegalapú adatkinyerést alkalmaznak bonyolultabb dokumentumokon, például táblázatok vagy ábrák esetén? Egy valós példán keresztül mutatjuk be, amikor egy vakcinajelentés HTML-oldalán a szöveges feldolgozás során a táblázatok elvesznek, és ezzel fontos információk elérhetetlenné válnak a kereső számára.
A PixelRAG új megközelítést alkalmaz: nem próbálja szöveggé alakítani a dokumentumokat, hanem azok képként történő feldolgozását alkalmazza, így megmarad a vizuális elrendezés. Bemutatjuk, hogy miként teszi lehetővé egy vision language model, különösen Gwen és Quince VRL, hogy a rendszer közvetlenül a képről olvassa ki a válaszokat, ahelyett hogy elveszne az oldalak szerkezete.
Az installáció lépései mellett szó esik gyakorlati kihívásokról, hibajavításokról, például típuskonverziós hibákról, illetve a megfelelő pipeline kiépítésének fontosságáról. A videó során egy Wikipédia-oldal (Terrakotta hadsereg) példáján mutatjuk be, miként történik a dokumentum átalakítása és indexelése az új rendszerben, majd vizuális keresés útján, egy kérdésre a helyes válasz megtalálása.
Sor kerül a rendszer hardveres igényeinek ismertetésére, alternatív lehetőségekkel (például GPU bérlés). Felvetődik a kérdés, mennyire használható ez a technológia valós, üzleti környezetben, és hogyan viszonyul a hagyományos szövegalapú kereséshez – valamint milyen kompromisszumokkal és veszélyekkel számolhatunk egy még fejlődő rendszer esetén.







