A
A
  • Angol
  • Magyar
  • 8 perc

Marco Nano és Mini: Az Alibaba új AI-modelljei hatékonyan és erőforrástakarékosan teljesítenek

A videó bemutatja, hogyan teljesítenek az Alibaba új, hatékony AI-modelljei különböző nyelvi és kódolási feladatokban, miközben extrém mértékben csökkentik az erőforrásigényt.

Az Alibaba legújabb AI-modelljeit, a Marco Nano és Marco Mini Instruct változatokat az AIDC AAI, egy nemzetközi digitális kereskedelmi divízió mutatta be. Ezek a modellek a ‘sparse mixture of expert’ architektúrát követik, amelyet egy dekóder-alapú transformerre építettek.

A Marco Nano Instruct különlegessége, hogy 8 milliárd paramétere közül egyszerre csak 6 milliárd aktiválódik, ami extrém alacsony, mindössze 7,5%-os aktivációs arányt jelent. Ennek ellenére a különböző, többnyelvű benchmarkokon a modell felülmúlta más hasonló nagyságrendű AI-modelljeit, különösen az utasításalapú (instruct) feladatokon.

Emellett a Marco Mini variáns is kivételes teljesítményt ért el: összesen 17,3 milliárd paraméterből mindössze 0,86 milliárd aktiválódik, ami 5%-os arány. Ez a hatékonyság lehetővé teszi, hogy több, nála nagyobb modellt is maga mögé utasítson bizonyos teszteken, miközben nagyon keveset terhel a hardveren.

A videóban a modellek telepítését, tesztelését és elemzését is láthatjuk, például strukturált kimenetek generálását, többnyelvű szövegek fordítását, illetve kódhibák feltárását SQL-ben. Szóba kerül az is, milyen érdekességeket tapasztalhatunk a különböző modellek gyorsaságában, pontosságában, illetve a kulturális különbségek kezelésében is.

Felmerül a kérdés: mikor jobb a kisebb, hatékonyabb modell, és mikor érdemes a nagyobbat választani? Hogyan birkóznak meg a különböző modellek többnyelvű, összetett feladatokkal, és mik a gyorsaság és minőség közötti kompromisszumok?