Bemutatásra kerül egy új, nyílt forráskódú mesterséges intelligencia modell, amely a Step One csapata által fejlesztett STEP3-VL-10B nevet viseli. Ez a 10 milliárd paraméteres multimodális modell kiemelkedő teljesítményt biztosít még a tízszer nagyobb méretű modellekkel szemben is.
A videó során végigkövethetjük a modell telepítésének folyamatát, a szükséges környezeti beállításokat, valamint a GPU erőforrás-felhasználását. Konkrét példákon keresztül megtudhatjuk, hogyan futtatható a modell akár helyben is, egy Nvidia RTX 6000-es grafikus kártyán.
A gyakorlati tesztek többféle valós feladaton értékelik a STEP3-VL-10B képességeit: képleírás, szövegkinyerés, arculat átalakítása stílus szerint, helyszínfelismerés, matematikai feladatmegoldás, tudományos képek értelmezése, számlaadatok felismerése és idegennyelvű dokumentum fordítása is vizsgálatra kerül.
Felmerülnek érdekes technikai kérdések, mint például a modell architektúrája, a képi és nyelvi információk integrálása, valamint a kettős következtetési mód, amely rangos szakmai mércéken is az élmezőnybe helyezi ezt a rendszert.
Vizsgálatra kerül, hogy a modell milyen jól kezeli a különböző nyelveket, és mennyire pontosan képes komplex kontextusfüggő információkat feldolgozni, például kézírás, orvosi dokumentum vagy épületfelismerés esetén.







