A
A
  • Angol
  • Magyar
  • 14 perc

GLM-4.6V: Új mesterséges intelligencia forradalom a multimodális feldolgozásban

Az új GLM-4.6V mesterséges intelligenciarendszer képességeit próbálják ki, kiemelve a multimodális feldolgozást, a hosszú kontextus kezelését, valamint a valós idejű gyakorlati példákat.

Az új GLM-4.6V mesterséges intelligenciamodell két változatban jelent meg: egy nagyobb, 106 milliárd paraméteres és egy kisebb, 9 milliárdos „flash” modellként, mely akár egyetlen GPU-n is futtatható. A bemutatott videó a kisebb modell telepítését és tesztelését mutatja be, részletesen kitérve a multimodális képességekre és arra, miért számít izgalmas újdonságnak a kategóriájában.

A GLM modellek már hónapok óta kiemelkedő eredményeket érnek el a kínai multimodális mesterséges intelligencia területén. Az új változat egyik legérdekesebb tulajdonsága a hatalmas, 128 000 tokenes kontextusablak, ami lehetővé teszi rendkívül hosszú dokumentumok vagy videók egyidejű feldolgozását anélkül, hogy a modell elfelejtené az összefüggéseket.

A multimodális eszközhívás különös figyelmet kap: a rendszer képes közvetlenül képeket vagy diagramokat feldolgozni, és ezekből információt kinyerni, szöveggé alakítás nélkül. Ez olyan lehetőségeket nyit, mint egy dizájnterv HTML-kóddá alakítása vagy weboldal-elemek módosítása pusztán egy képen történő kijelölés alapján.

A tesztekben különböző feladattípusokat próbálnak ki, például közlekedési helyzet leírását képről, kézírás felismerését, számlaadatok kinyerését és egyenletek átalakítását Markdown formátumba. Szó esik a modell teljesítményéről OCR és vizuális értelmezési feladatokban, valamint más ismert modellekkel való összevetéséről.

Vizsgálják a nagyobb, 106 milliárdos változatot is, különböző képek, videók, egészségügyi felvételek és nyelvi sokszínűséget tartalmazó szövegek feldolgozásával. A teljesítményt több szempontból értékelik, felvetve, milyen lehetőségeket nyit a multimodalitás, a hosszú kontextus és a modellek közötti verseny a kínai fejlesztők körében.