A
A
  • Angol
  • Magyar
  • 11 perc

Olmo Hybrid 7B: Nyílt forráskódú AI modell bemutatása és tesztelése

Egy minden elemében nyílt, hibrid architektúrájú AI modellt tesztelnek, bemutatva annak előnyeit, működését és korlátait hétköznapi példákon keresztül.

Az Olmo Hybrid 7B egy új, teljesen nyílt forráskódú, könnyű súlyú mesterséges intelligencia modell, amelyet az Allen Institute fejlesztett ki. Ezzel a modellel a kutatók nemcsak a modell súlyait, hanem az összes tanítási adatot, a kódot, a naplókat és a tanítási folyamat minden ellenőrzőpontját is közzétették, ami rendkívül ritka a mesterséges intelligencia világában.

A hibrid architektúra érdekessége, hogy a 32 rétegéből csak nyolc használ figyelmet (attention), míg a maradék egy gyorsabb, ‘delta’ nevű megközelítést alkalmaz, így jelentősen hatékonyabb hosszú szövegek feldolgozásában. Ez az egyedi rétegkiosztás akár 75%-kal gyorsabb feldolgozást eredményezhet a hasonló méretű, tisztán figyelmi modellekhez képest.

A bemutató során kitérnek a tanítási folyamat három szakaszára: általános előtanítás, kód- és matematikai fókuszú középtanítás, valamint a hosszú kontextust kezelő finomhangolási szakasz. Olyan technikákat részleteznek, mint a felügyelt finomhangolás (SFT), ahol a modell megtanulja az instrukciók követését, valamint a DPO (Direct Preference Optimization), amelyben az AI emberi visszajelzés alapján tanul választ adni.

Bemutatásra kerül, hogyan történik a modell telepítése, beállítása Ubuntu rendszeren egy Nvidia RTX 6000 GPU segítségével, miközben a VRAM-felhasználás, a szükséges könyvtárak és a felhasználói élmény is kiemelt szerepet kap. A gyakorlati tesztek közt szerepel kódfeladat, matematikai probléma és kreatív nyelvi kihívás is, így a nézők betekintést nyerhetnek a modell erősségeibe és gyengeségeibe.

Foglalkoznak a modell korlátaival is: egyelőre csak angolul működik, funkcionális eszközhasználatban (tool use) és néhány más területen kevésbé teljesít jól, ráadásul tudásának időkorlátja is régi, egészen 2024 decemberéig tart. Mindazonáltal a modell teljes átláthatósága és testreszabhatósága lehetőséget nyújt mélyebb kutatásokra és saját alkalmazások fejlesztésére.