Bemutatkozik az intern S1 mini modell, amely a multimodális érvelést helyezi előtérbe, és képes videókat, képeket és szöveget is értelmezni. Az alkotók részletesen ismertetik, hogyan lehet ezt a modellt helyben, saját rendszeren futtatni, valamint bemutatják a szükséges hardverigényeket és szoftveres lépéseket az installációhoz.
Az előadás során kitérnek arra, milyen lehetőségeket kínál a modell a szöveges feladatok megoldásában, többek között nyelvi szerkesztési és problémamegoldási példákon keresztül mutatják be a működését. Elemzik azt is, hogyan viselkedik a ‘gondolkodás’ funkció bekapcsolt és kikapcsolt állapotban, mikor érdemes ezt használni, és milyen hatása van a memóriafogyasztásra.
Képelemzési példákra is sor kerül, bemutatják a modell teljesítményét helyszín- és objektumazonosítási feladatokban. Felmerül a kérdés, mennyire képes ezekre a komplex, multimodális kihívásokra, illetve hogyan lehet még fejleszteni a pontosságot.
Végül a videóanalízis lehetőségeit járják körbe: egy mesterségesen generált videón keresztül vizsgálják, a modell hogyan írja le a komplex jeleneteket, és mennyire tudja megragadni a finomabb gesztusokat, jelenetbeli részleteket. Az is érdekes kérdésként merül fel, hogy különböző feladatokban – nyelv, kép, videó vagy kódolás – mennyire válik valóban univerzális eszközzé az intern S1 mini.