A
A
  • Angol
  • Magyar
  • 10 perc

Multimodális keresés mesterséges intelligenciával: szöveg, kép és videó egy helyen

A videóban egy olyan mesterséges intelligenciával támogatott keresőrendszert ismerhetünk meg, amely képes egyszerre szöveges, képi és videós tartalmakból releváns információkat kiválasztani és rangsorolni.

Az Alibaba Quen csapatának legújabb fejlesztéseit ismerhetjük meg, amelyek forradalmasíthatják a mesterséges intelligencia alapú keresést. A bemutatott Quen 3VL embedding és Quen 3VL reranker modellek lehetővé teszik, hogy szöveget, képet és videót együttesen kezeljen egy rendszer, közös szemantikus térben.

Az első részben részletes magyarázatot kapunk az embedding modellek működéséről. Itt a különféle bemeneteket – például szöveget, képet és videót – magas dimenziós vektorokká alakítják, amelyek között matematikai módszerekkel lehet hasonlóságot mérni. Felmerül a kérdés, hogy mennyire pontosak ezek a modellek különböző médiatípusok összehasonlításában.

A reranker modell szerepe, hogy az előzőleg kiválasztott találatokat még pontosabban rangsorolja, kihasználva a keresett kifejezés és a dokumentumok közötti komplex kapcsolatokat. Az elhangzott példák bemutatják, hogyan képes a rendszer szövegek és képek közötti finom kapcsolatok felismerésére.

Áttekintést kapunk egy gyakorlati példán keresztül arról is, hogyan lehet a két modellt együtt használni egy többfázisú keresési folyamatban, és hogyan hat mindez a végleges eredmények sebességére és relevanciájára. Felmerül az is, hogy milyen hardverigényeket támaszt ez a megoldás, illetve milyen lehetőségek vannak a gazdaságosabb futtatásra.