Az Olmo Hybrid 7B egy új, teljesen nyílt forráskódú, könnyű súlyú mesterséges intelligencia modell, amelyet az Allen Institute fejlesztett ki. Ezzel a modellel a kutatók nemcsak a modell súlyait, hanem az összes tanítási adatot, a kódot, a naplókat és a tanítási folyamat minden ellenőrzőpontját is közzétették, ami rendkívül ritka a mesterséges intelligencia világában.
A hibrid architektúra érdekessége, hogy a 32 rétegéből csak nyolc használ figyelmet (attention), míg a maradék egy gyorsabb, ‘delta’ nevű megközelítést alkalmaz, így jelentősen hatékonyabb hosszú szövegek feldolgozásában. Ez az egyedi rétegkiosztás akár 75%-kal gyorsabb feldolgozást eredményezhet a hasonló méretű, tisztán figyelmi modellekhez képest.
A bemutató során kitérnek a tanítási folyamat három szakaszára: általános előtanítás, kód- és matematikai fókuszú középtanítás, valamint a hosszú kontextust kezelő finomhangolási szakasz. Olyan technikákat részleteznek, mint a felügyelt finomhangolás (SFT), ahol a modell megtanulja az instrukciók követését, valamint a DPO (Direct Preference Optimization), amelyben az AI emberi visszajelzés alapján tanul választ adni.
Bemutatásra kerül, hogyan történik a modell telepítése, beállítása Ubuntu rendszeren egy Nvidia RTX 6000 GPU segítségével, miközben a VRAM-felhasználás, a szükséges könyvtárak és a felhasználói élmény is kiemelt szerepet kap. A gyakorlati tesztek közt szerepel kódfeladat, matematikai probléma és kreatív nyelvi kihívás is, így a nézők betekintést nyerhetnek a modell erősségeibe és gyengeségeibe.
Foglalkoznak a modell korlátaival is: egyelőre csak angolul működik, funkcionális eszközhasználatban (tool use) és néhány más területen kevésbé teljesít jól, ráadásul tudásának időkorlátja is régi, egészen 2024 decemberéig tart. Mindazonáltal a modell teljes átláthatósága és testreszabhatósága lehetőséget nyújt mélyebb kutatásokra és saját alkalmazások fejlesztésére.










