Az InternLM friss fejlesztését ismerhetjük meg ebben a videóban, amely az S1 elnevezésű, multimodális és sokoldalúan használható mesterséges intelligencia modellre épül. Egyedülálló abban, hogy nemcsak szöveges, hanem képi, videós, audio- és még további inputokat képes kezelni, illetve tudományos szövegek elemzésére is alkalmas.
A modell különlegessége, hogy a Quen 3 nevű, nagy paraméterszámú nyelvi alapmodellt ötvözi saját fejlesztésű képfeldolgozó moduljával. Ez lehetővé teszi számára, hogy nemcsak általános, hanem speciális tudományos területeken – például kémia, fizika vagy földtudományok – is precíz elemzéseket végezzen. Kiemelt figyelmet fordítottak az adatkészlet sokszínűségére is, több billió tokenből származó adatot használtak a tanításhoz.
Bár a felhasználói telepítési lehetőségek is szóba kerülnek, a videó foglalkozik azokkal a kihívásokkal, amelyek a modell futtatásával járnak – különösen a hardverigényekkel. Felmerülhet a kérdés: vajon elérhetővé válik-e majd a gyakorlati alkalmazás ezekkel a nagy méretű modellekkel? Szintén érdekes, hogy a fejlesztők dinamikus tokenizert és eszközök hívását lehetővé tevő, fejlett funkciókat építettek be.
Az összehasonlító tesztek során szóba kerül többek között a Gemini 1.5 Pro és a GPT-4 régebbi változata is, így a modell teljesítményét is körüljárják. A nézők végiggondolhatják, milyen potenciális felhasználási lehetőségek nyílhatnak meg ezzel a modellel, különösen a tudományos kutatás és a technikai szakterületek számára.