A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 12 perc

Step 3: Egy új multimodális modell vizsgálata üzleti és tudományos példákon keresztül

A StepFun új modelljét különféle üzleti és tudományos példákon keresztül vizsgálják, kiemelve annak multimodális képességeit, többnyelvűségét és valós adatokon való teljesítményét.

Ma már rengeteg fejlett multimodális érvelő modell közül választhatunk, de a Step 3 újdonsága a különösen nagy, szakértők modelljeinek keverékén alapuló architektúra. A modell aktív paramétereinek száma kiemelkedő, így futtatásához komoly számítási erő szükséges, emiatt több GPU-t igényel. Azonban nyílt forráskódú, ráadásul Apache 2 licenc alatt érhető el, így bárki kipróbálhatja.

A bemutató során valós üzleti példákon keresztül tesztelik a Step 3-at. Különböző tudományos cikkek, PDF-ek, vegyes nyelvű dokumentumok és számlák alapján vizsgálják, hogyan birkózik meg különböző típusú feladatokkal: többnyelvű OCR-rel, dokumentum-összefoglalással, matematikai egyenletek értelmezésével, illetve komplex adatsorokból történő információkinyeréssel.

Érdekes aspektusa, hogy a modell képes bonyolult képi és szöveges tartalmakat együttesen elemezni, legyen szó akár kézzel írt jegyzetekről, vagy adatokat, grafikonokat tartalmazó üzleti riportokról. A tesztek során olyan témákra került sor, mint a többnyelvű karakterfelismerés, a valós idejű információkinyerés, OCR pontosság, és a tudományos adatfeldolgozás automatizálása.

A fejlesztők a videóban kitérnek arra is, hogy milyen architekturális különbségek jellemzik a Step 3-at más modellekhez képest, és hogy pontosan hogyan valósul meg a képi és szöveges információ összehangolt feldolgozása. Felvetnek kérdéseket a modell általános felhasználhatóságáról, nyelvi sokféleségéről és gyakorlati alkalmazhatóságáról is, különböző esettanulmányokon keresztül.