Egy újonnan megjelent, nyílt forráskódú mesterségesintelligencia-modellt, a Molmo 2-t mutatja be a videó, fókuszálva annak videoelemzési, pozicionálási és követési képességeire. A bemutatót lépésről lépésre követhetjük, miközben a modell telepítésére és tesztelésére is sor kerül egy helyi gépen. Külön fény derül arra, hogyan használható képek, videók és többképes szituációk elemzésére.
Az architektúra részletes, de közérthető bemutatása során megtudhatjuk, a hálózat miként dolgozza fel a vizuális információkat, hogyan párosítja azokat időbeli és szöveges adatokkal, illetve miként alkalmaz kettős figyelmet a különböző képkockák között. A grounding fogalmát kiemelten tárgyalja, vagyis azt, hogyan támasztja alá a modell válaszait konkrét vizuális bizonyítékokkal, például koordináták, időbélyegek vagy objektumazonosítók szolgáltatásával.
Különböző gyakorlati példákon keresztül tesztelnek olyan funkciókat, mint tárgyak pozicionálása, képi szöveg felismerése, táblázatból JSON-generálás vagy épp többnyelvű OCR-próbálkozások. Ugyancsak szó esik arról, mennyi erőforrást igényel a modell futtatása, és mennyire gyorsan képes válaszolni komplex kérdésekre képek és videók kapcsán. Az AI által generált anyagokon zajló tesztek izgalmas kérdéseket vetnek fel a modell határaival, megbízhatóságával és a vizuális következtetés pontosságával kapcsolatosan.










