A
A
  • Angol
  • Magyar
  • 8 perc

Új AI modell CPU-ra: multimodális funkciók alacsony erőforrásigénnyel

Egy új, 450 millió paraméteres multimodális modellt tesztelnek CPU-n, amely képes képaláírásra, objektumdetektálásra, többnyelvű szövegértésre és funkcióhívásra is.

Az LFM2.5-VL-450M egy mindössze 450 millió paraméterből álló, könnyű multimodális modell, amelyet helyben, CPU-n is lehet futtatni. A videóban bemutatják, hogy ez a Liquid AI által fejlesztett modell képes képaláírásra, objektumfelismerésre, határolódobozok meghatározására és többnyelvű szövegértelmezésre is, miközben kifejezetten alacsony erőforrásigénnyel rendelkezik.

Részletesen szemléltetik a telepítési folyamatot: szükség van például a vllm alkalmazásra és a Transformers könyvtárra. Még egy bővebb erőforrású, de nem kifejezetten csúcskategóriás szerveren is egyszerűen, gyorsan elindítható, így edge eszközökön, egyszerűbb gépeken is szóba jöhet.

A tesztek során különféle feladatokat hajtanak végre, például zászlóazonosítást, többnyelvű OCR-t és objektumdetektálást. Az eredmények változatosak: míg a latin betűs nyelvek jól működnek, a nem latin írásrendszerek kezelése jelenleg gyengébb.

Felmerülnek fontos kérdések: Mire lehet érdemes használni egy ilyen kis modellt? Milyen kompromisszumokat kell kötni kis memóriaigény mellett a pontosság vagy a funkcionalitás terén? Milyen típusú feladatokra elég egy hasonló modell a gyakorlatban? Ezekre a kérdésekre választ keresve néhány izgalmas példafeladat is bemutatásra kerül.