Az LLaVA-OneVision-1.5 nevű mesterséges intelligencia modellt mutatja be a videó, amely új szintet jelent az AI világában a nyitottság és átláthatóság terén. Ez a rendszer képes szövegek és képek együttes értelmezésére, miközben minden fejlesztési adat, kód, valamint a tanítási receptúra is elérhető a közösség számára.
A történeti áttekintésből megtudhatjuk, hogy a LLaVA modellek célja, hogy közelebb hozzák egymáshoz a vizuális és nyelvi intelligenciát, lehetővé téve, hogy a mesterséges intelligencia ne csak olvasson és írjon, hanem lásson és értsen is. Izgalmas képességeket vonultat fel, például képek leírását, kérdések megválaszolását képi tartalmakkal kapcsolatban, valamint diagramok elemzését.
Külön hangsúly esik arra, mennyire demokratizálja ez a megközelítés a multimodális AI világát, hiszen nemcsak maga a modell, hanem a teljes tanítási folyamat, beleértve az adatkurálást és finomhangolást is, nyilvános. Felmerül a kérdés, hogy a nyílt forrású filozófia mennyiben tud versenyezni a zárt, drága megoldásokkal.
Az installációs folyamat során megismerhetjük a technikai követelményeket és támogatott platformokat. A tesztelés során szóba kerülnek az OCR (karakterfelismerés) és a vizuális kérdés-válasz (VQA) feladatok, amelyek alapján körvonalazódik, hogy a modell mely felhasználási területeken teljesít igazán jól, illetve hol vannak korlátai.








