Minden eddigi, általad használt multimodális AI modell valójában két külön rendszerre épül: az egyik a szövegeken, a másik a képek előállításán dolgozik, a kettő között egyfajta „fordító” működik. Ebben a bemutatóban azonban egy teljesen új szemléletű, nyílt forráskódú modellt ismerhetünk meg, amelyet az alapoktól egységes rendszerként terveztek: ez a SenseNova U1.
Az elhangzottak alapján nemcsak a képgenerálás képességével bír, hanem képes értelmezni és strukturálni az információt, például infografikákat, posztereket és összetett vizuális elrendezéseket is önállóan létrehozni. Felvetődik a kérdés: mi is zajlik valójában akkor, amikor a modell „gondolkodik” egy képpel kapcsolatban, és hogyan képes logikusan felépített, vizuálisan letisztult ábrákat készíteni egy-egy szöveges prompt alapján?
A videó alaposan kitér arra, hogy a SenseNova U1 hogyan képes szöveget és vizuális információt egyszerre kezelni, sőt, gondolkodása során képeket is képes generálni, épp ott és úgy, ahogy az adott feladat igényli. Különleges példákat mutat be, ahol a modell egy parfüm összetételének vizualizációján keresztül demonstrálja ezt a képességet. Mindez arra ösztönzi a nézőt, hogy elgondolkodjon: lehet-e ennél is tovább lépni, vajon mi mindenre használható egy ilyen egységes megközelítés, és mennyiben különbözik ez a megoldás a már ismert AI eszközöktől?









