Az elmúlt évben az Nvidia komoly előrelépéseket tett a nyílt forráskódú mesterséges intelligencia terén, és számos új modellt és adatbázist bocsátott a közösség rendelkezésére. Ezek az újítások nemcsak a modellek számát növelték, hanem azok minőségét is emelték, ráadásul többféle műfajban és modalitásban lehet használni őket.
A Neotron ColEmbed V2 nevű modell kiemelkedően jól kezeli a szöveges és képi információk együttes feldolgozását. Ezt a modellt nemcsak dokumentumok, hanem például prezentációs diák, grafikonok vagy infografikák keresésére is lehet alkalmazni természetes nyelvű lekérdezéseken keresztül. Egyes benchmarkokon már előkelő helyezést is elért a vizuális dokumentumkeresés területén.
Az architektúra különlegessége, hogy a lekérdezések és a képek között finomhangolt egyezéseket talál, mivel nem egyetlen beágyazást készít egy-egy képre, hanem több, részletekre bontott vektort generál. Ez lehetővé teszi, hogy egy-egy keresőkulcsszó pontosan egy képrészlethez igazodjon.
A bemutató során egy Ubuntu rendszeren történik a telepítés, Nvidia RTX 6000 GPU segítségével. A videó részletesen bemutatja, hogyan dolgozza fel a modell orvosi témájú képeket és szöveges lekérdezéseket, miközben kitér a VRAM-fogyasztásra és a különböző paraméterszámú modellek közötti eltérésekre is.
Felmerül a kérdés, hogy milyen további felhasználási lehetőségek nyílhatnak meg az ilyen multimodális rendszerekkel, valamint hogy a szakmai területeken (például az egészségügyben) miként tudják majd hatékonyabbá tenni az információkeresést.









