A
A
  • Angol
  • Magyar
  • 15 perc

Molmo 2: Nyílt forrású AI fejest ugrik a videóelemzés világába

A Molmo 2 új szintre emeli a nyílt forrású mesterségesintelligencia-video- és képfeldolgozást, lehetővé téve fejlett követési, pozicionálási és grounding képességeket könnyen elérhető hardveren.

Egy újonnan megjelent, nyílt forráskódú mesterségesintelligencia-modellt, a Molmo 2-t mutatja be a videó, fókuszálva annak videoelemzési, pozicionálási és követési képességeire. A bemutatót lépésről lépésre követhetjük, miközben a modell telepítésére és tesztelésére is sor kerül egy helyi gépen. Külön fény derül arra, hogyan használható képek, videók és többképes szituációk elemzésére.

Az architektúra részletes, de közérthető bemutatása során megtudhatjuk, a hálózat miként dolgozza fel a vizuális információkat, hogyan párosítja azokat időbeli és szöveges adatokkal, illetve miként alkalmaz kettős figyelmet a különböző képkockák között. A grounding fogalmát kiemelten tárgyalja, vagyis azt, hogyan támasztja alá a modell válaszait konkrét vizuális bizonyítékokkal, például koordináták, időbélyegek vagy objektumazonosítók szolgáltatásával.

Különböző gyakorlati példákon keresztül tesztelnek olyan funkciókat, mint tárgyak pozicionálása, képi szöveg felismerése, táblázatból JSON-generálás vagy épp többnyelvű OCR-próbálkozások. Ugyancsak szó esik arról, mennyi erőforrást igényel a modell futtatása, és mennyire gyorsan képes válaszolni komplex kérdésekre képek és videók kapcsán. Az AI által generált anyagokon zajló tesztek izgalmas kérdéseket vetnek fel a modell határaival, megbízhatóságával és a vizuális következtetés pontosságával kapcsolatosan.