A
A
  • Angol
  • Magyar
  • 10 perc

ERNIE 4.5 VL: a képek és szövegek mestere nagy teljesítményű GPU-n tesztelve

Az ERNIE 4.5 VL vizuális-nyelvi modell fejlett architektúráját és komplex feladatokban való alkalmazását mutatja be ez a videó, mely során a telepítés és a működés részletes tesztelése is megtörténik.

Az ERNIE 4.5 VL egy friss, speciális feladatokra fejlesztett vizuális-nyelvi modell, amelyet a Baidu, vagyis Kína „Google”-je készített. A bemutató során részletesen feltárul a modell fejlett, multimodális képessége: képeket és szövegeket egyaránt képes értelmezni, valamint generálni.

Megismerhető, hogyan működik a modell „mixture of experts” architektúrája, amely 28 milliárd paraméterrel rendelkezik, de csak 3 milliárd aktiválódik tokenenként, így hatékony működést biztosít nagy méret ellenére is. Új technikákat alkalmaz, mint például a modality isolated routing és a token balanced loss, amelyek a különböző modalitások közötti interferenciát csökkentik, és erős keresztmodalitású következtetési képességeket eredményeznek.

A telepítés és a tesztelés folyamata is bemutatásra kerül Ubuntu rendszerrel és nagy teljesítményű Nvidia H100 GPU-val. Külön érdekesség, hogy a modell letöltése, betöltése és futtatása a valós teszt epizódokon keresztül történik, ideértve képelemzést, OCR feladatokat több nyelven, valamint egy speciális orvosi kép analízist is.

Egyedi kérdésként felmerül, hogy mennyire alkalmas ez a modell általános célú feladatokra, illetve mely helyzetben igazán hatásos. Szó esik arról, milyen minőségi válaszokra képes, mégis mennyi időt vesz igénybe az egyes műveletek. Szintén nyílt kérdésként jelenik meg, hogyan lehet tovább finomhangolni a modellt saját képekre, valamint mik a gyakorlati korlátai és alkalmazási területei ennek a fejlett mesterséges intelligencia rendszernek.