A
A
  • Angol
  • Magyar
  • 7 perc

Nanowhale-100m: Bálna a pohárban – AI modell egyetlen GPU-ra vagy CPU-ra módosítva

Egy különleges nyelvi modell, amely a DeepSeek-V4 architektúráját tömöríti 110 millió paraméterbe, és teljes egészében akár egyetlen GPU-n vagy CPU-n is futtatható.

A bemutatott modell, a Nanowhale-100m, a DeepSeek-V4 architektúráját tömöríti egy mindössze 110 millió paraméteres, rendkívül kompakt nyelvi modellbe. Az alkotó azzal kísérletezett, hogy lehetséges-e modern AI-architektúrát ilyen kis méretben futtatni, akár egyetlen GPU-n vagy akár CPU-n is.

Az oktatóvideó végigvezeti a nézőt a modell létrehozásának és tanításának folyamatán, kiemelve, hogy minden komponens saját fejlesztés, semmit sem vettek át a hagyományos DeepSeek-ből. A tanítás során webes és csevegős adatokat alkalmaztak, majd a modellt a Hugging Face platformról telepítették.

Az alkotó külön érdekességeket emel ki az architektúra tervezéséből: különleges figyelemmechanizmust, újfajta rétegszerkezeteket és dimenziócsökkentési trükköket alkalmaztak, valamint számos mini szakértői réteget építettek be a hatékonyság jegyében.

A teljesítmény vizsgálata során a VRAM- és CPU-használatot, illetve a válaszadási sebességet mutatja be. Az elhangzó példák rávilágítanak, hogy a mini modellek valódi értéke leginkább oktatási jellegű: betekintést nyújtanak abba, hogyan lehet egy AI-architektúra lényegi elemeit megőrizni, ugyanakkor extrém mértékben csökkenteni a paraméterszámot.

Felveti a kérdést: milyen lehetőségei és korlátai vannak a hasonlóan miniaturizált modelleknek, és hogyan segíthetik ezek a tanulási folyamatot, akár laikus, akár haladó gépi tanulási érdeklődők számára?