A Byte Dance kínai AI-labor legújabb fejlesztését, a TAR multimodális modellt mutatja be a videó, amely egyszerre képes képeket és szövegeket értelmezni, feldolgozni, illetve vizuális tartalmat generálni.
A modell két változatban érhető el: 1,5 milliárd és 7 milliárd paraméterrel. Az architektúra újdonsága, hogy a képeket és a szövegeket egy közös, szöveghez igazított tokenizáló rendszerrel dolgozza fel, így mindkét típusú adat hatékonyabban kombinálható és értelmezhető.
A telepítési folyamat bemutatása mellett szó esik a modell belső működéséről, például a skálázható kódolásról, amely lehetővé teszi, hogy gyorsabb, vázlatszerű képekhez kevesebb tokent, részletgazdagabb képekhez pedig többet használjon. Különböző példákkal demonstrálják, hogyan képes a TAR képeket generálni változatos promptokra, valamint értékelik, mennyire tud emberi alakokat és szöveget ábrázolni.
Felmerülnek olyan kérdések is, hogy a modell mennyire tudja helyesen visszaadni az emberi anatómiát vagy a vizuális poézist, illetve mennyire pontos a szövegalapú képgenerálás és képleírás.