A
A
  • Angol
  • Magyar
  • 8 perc

Microsoft Kosmos-2.5: Az új modell, ami a szöveges képeket sem kíméli

Helyi környezetben próbálják ki a Microsoft legfrissebb multimodális modelljét, amely a szövegekkel teli képek megértésére és értelmezésére lett fejlesztve.

Egy új, továbbfejlesztett multimodális modellt tesztelnek helyben, amelyet a Microsoft fejlesztett, és amely különösen a szöveggel sűrűn telerakott képek megértésére lett tervezve.

A rendszer nem csupán a szöveg leírására alkalmas, hanem képes a szövegrészek lokalizálására és szerkezetük megtartására is, például megőrzi a tabulátorokat, stílusokat, táblázatokat Markdown formátumban.

Felmerül a kérdés, hogy ez a modell valóban átfogó újdonságokat hozott-e az előző verzióhoz képest, vagy csak a megszokott OCR képességeket ötvözi egy új csomagolásban. Külön figyelmet fordítanak arra, hogy mennyire boldogul bonyolult, régi újságok szövegének feldolgozásával, valamint a többnyelvű szövegekkel.

A teszt során az is vizsgálat tárgyát képezi, mennyire képes megküzdeni a táblázatos adatokkal, például számlákkal vagy struktúrált információkkal. Érdekes kérdésként merül fel, hogy a benchmark-eredmények mennyiben tükrözik a modell valós teljesítményét hétköznapi felhasználásban.