Ebben az ismertetőben egy új, 15 milliárd paraméterrel rendelkező, multimodális Apriel modellt mutatnak be, amely a ServiceNow fejlesztése. A modell az utóbbi fél évben folyamatosan fejlődött, jelenlegi verziója pedig a Mistrol Pixrol 12B alapjaira épít, de új, úgynevezett ‘mid-training’ technikát alkalmaz.
A bemutató részletesen ismerteti a telepítést és futtatást helyi gépen, kihangsúlyozva, hogy a modellt Docker segítségével, Nvidia H100 GPU-n, Ubuntu alatt sikerült elindítani. Fontos technikai részletként említik a VRAM-felhasználást és a szükséges előfeltételeket.
Kiemelkedő téma a kétlépcsős mid-training folyamat: először széleskörű szöveges és multimodális pretraining történik, majd speciális képfeldolgozási feladatokkal élesítik a modell vizuális képességeit. Ezután következik a felügyelt finomhangolás, amely instrukciókövetést és eszközhasználatot tanít, de a hagyományos megerősítéses tanulás nélkül.
A bemutatott tesztek érintik a kép- és szövegértést, OCR-feladatokat, számla- és grafikon-elemzést, kézírásos karakterek felismerését, valamint a többnyelvűség detektálását. Ezek eredményei alapján izgalmas kérdések vetődnek fel a modell sokoldalúságával, teljesítményhatáraival és gyakorlati alkalmazhatóságával kapcsolatban.