Ma már rengeteg fejlett multimodális érvelő modell közül választhatunk, de a Step 3 újdonsága a különösen nagy, szakértők modelljeinek keverékén alapuló architektúra. A modell aktív paramétereinek száma kiemelkedő, így futtatásához komoly számítási erő szükséges, emiatt több GPU-t igényel. Azonban nyílt forráskódú, ráadásul Apache 2 licenc alatt érhető el, így bárki kipróbálhatja.
A bemutató során valós üzleti példákon keresztül tesztelik a Step 3-at. Különböző tudományos cikkek, PDF-ek, vegyes nyelvű dokumentumok és számlák alapján vizsgálják, hogyan birkózik meg különböző típusú feladatokkal: többnyelvű OCR-rel, dokumentum-összefoglalással, matematikai egyenletek értelmezésével, illetve komplex adatsorokból történő információkinyeréssel.
Érdekes aspektusa, hogy a modell képes bonyolult képi és szöveges tartalmakat együttesen elemezni, legyen szó akár kézzel írt jegyzetekről, vagy adatokat, grafikonokat tartalmazó üzleti riportokról. A tesztek során olyan témákra került sor, mint a többnyelvű karakterfelismerés, a valós idejű információkinyerés, OCR pontosság, és a tudományos adatfeldolgozás automatizálása.
A fejlesztők a videóban kitérnek arra is, hogy milyen architekturális különbségek jellemzik a Step 3-at más modellekhez képest, és hogy pontosan hogyan valósul meg a képi és szöveges információ összehangolt feldolgozása. Felvetnek kérdéseket a modell általános felhasználhatóságáról, nyelvi sokféleségéről és gyakorlati alkalmazhatóságáról is, különböző esettanulmányokon keresztül.