A Meta új, interaktív SAM 3 modellje lenyűgöző lehetőségeket kínál a videókban szereplő objektumok felismerésére, szegmentálására és követésére. Akár szöveges, akár vizuális promptokkal (pontok, keretek, maszkok) is képes dolgozni, így az objektumok egyszerűen kijelölhetők.
A telepítés folyamata Ubuntu rendszeren demonstrálva van, külön kitérve a modell helyi futtatására és a szükséges hardverigényekre. Megtudhatjuk, hogy a SAM 3 kezelése mennyire intuitív, és hogy a modell mindössze ~3,4 GB méretű, így már kisebb VRAM-mal rendelkező gépeken is használható.
Bemutatásra kerül több kézzel készített, mesterséges intelligencia által generált tesztvideón keresztül, hogyan képes a SAM 3 különféle tárgyakat (emberek, állatok, tárgyak, természeti jelenségek, például láng) felismerni és egymás után végigkövetni a videó különböző kockáin.
A videó felveti a promptalapú szegmentáció gyakorlati kérdéseit, korlátait és az alkalmazásban rejlő távlatokat, összevetve a SAM 3-at korábbi verziókkal és alternatív modellekkel. Külön érdekesség, hogyan bővítették ki a nyitott szókészletű felismerést, valamint hogyan teljesít a modell sokféle, összetett jelenetben.







