Microsoft Kosmos-2.5: Az új modell, ami a szöveges képeket sem kíméli ✦ UMA

Helyi környezetben próbálják ki a Microsoft legfrissebb multimodális modelljét, amely a szövegekkel teli képek megértésére és értelmezésére lett fejlesztve.

Egy új, továbbfejlesztett multimodális modellt tesztelnek helyben, amelyet a Microsoft fejlesztett, és amely különösen a szöveggel sűrűn telerakott képek megértésére lett tervezve.

A rendszer nem csupán a szöveg leírására alkalmas, hanem képes a szövegrészek lokalizálására és szerkezetük megtartására is, például megőrzi a tabulátorokat, stílusokat, táblázatokat Markdown formátumban.

Felmerül a kérdés, hogy ez a modell valóban átfogó újdonságokat hozott-e az előző verzióhoz képest, vagy csak a megszokott OCR képességeket ötvözi egy új csomagolásban. Külön figyelmet fordítanak arra, hogy mennyire boldogul bonyolult, régi újságok szövegének feldolgozásával, valamint a többnyelvű szövegekkel.

A teszt során az is vizsgálat tárgyát képezi, mennyire képes megküzdeni a táblázatos adatokkal, például számlákkal vagy struktúrált információkkal. Érdekes kérdésként merül fel, hogy a benchmark-eredmények mennyiben tükrözik a modell valós teljesítményét hétköznapi felhasználásban.

Microsoft Kosmos-2.5: Az új modell, ami a szöveges képeket sem kíméli

Hasonló tartalmak:

Retroid Pocket 6 első benyomások és érdekességek: nosztalgia és modernizmus találkozása

Grafikus kártyák védelme: a Wire View 2 eszköz bemutatása és előnyei

A Tandem Computers meghibásodásmentes rendszereinek izgalmas története

MCP CLI: Takaríts meg tokeneket dinamikus eszközkezeléssel

Kis barátok a hologramüvegben és az új AI-játéksegítők a CES-en