A
A
  • Angol
  • Magyar
  • 10 perc

AI-modellek gyors bővítése matematikai módszerekkel

Egy új, kísérleti eljárást mutat be a videó, amely lehetővé teszi kisebb AI-modellek jelentős bővítését anélkül, hogy teljesen újra kellene azokat tanítani.

A videó témája az, hogyan lehet egy 32 milliárd paraméteres mesterségesintelligencia-modellt matematikai módszerekkel 72 milliárd paraméteressé bővíteni anélkül, hogy az alapoktól újra kellene tanítani az egész modellt. Az alkotó bemutatja az innovatív architekturális bővítési technikát, amely során két lépésben történik a modell kiterjesztése: először a rejtett dimenziók, majd a rétegek számának növelésével.

Külön érdekesség, hogy a folyamat során kvantálást, azaz pontosságcsökkentő tömörítést is alkalmaznak, amivel a memóriaigény lényegesen lecsökkenthető, így akár egy 72 milliárd paraméteres modell is elfuthat elérhetőbb GPU-kon. Az előadó példákat is hoz arra, hogy egy NVIDIA H100 vagy akár egy RTX A6000 GPU-n mennyi memória fogy ilyen körülmények között.

Az eljárás humoros és találó nevet is kapott: az „ambigent”, amely a Simpson család egyik epizódjából vett nyelvi játék, utalva arra, miként lehet a kicsiből nagyot csinálni. Rámutatnak arra is, hogy ezek a technikák milyen irányokat nyithatnak a kutatásban, illetve mennyire érdemes ilyen matematikailag bővített modellekkel kísérletezni, mielőtt további finomhangolásra küldjük őket.

A tesztek során szó esik a modellek teljesítményéről, arról, milyen kompromisszumokat kell kötni a pontosság és az erőforrásigény között, valamint hogy a leírt technikák vajon mennyire lehetnek hasznosak a mesterséges intelligencia fejlődésében.