A bemutatott modell, a Nanowhale-100m, a DeepSeek-V4 architektúráját tömöríti egy mindössze 110 millió paraméteres, rendkívül kompakt nyelvi modellbe. Az alkotó azzal kísérletezett, hogy lehetséges-e modern AI-architektúrát ilyen kis méretben futtatni, akár egyetlen GPU-n vagy akár CPU-n is.
Az oktatóvideó végigvezeti a nézőt a modell létrehozásának és tanításának folyamatán, kiemelve, hogy minden komponens saját fejlesztés, semmit sem vettek át a hagyományos DeepSeek-ből. A tanítás során webes és csevegős adatokat alkalmaztak, majd a modellt a Hugging Face platformról telepítették.
Az alkotó külön érdekességeket emel ki az architektúra tervezéséből: különleges figyelemmechanizmust, újfajta rétegszerkezeteket és dimenziócsökkentési trükköket alkalmaztak, valamint számos mini szakértői réteget építettek be a hatékonyság jegyében.
A teljesítmény vizsgálata során a VRAM- és CPU-használatot, illetve a válaszadási sebességet mutatja be. Az elhangzó példák rávilágítanak, hogy a mini modellek valódi értéke leginkább oktatási jellegű: betekintést nyújtanak abba, hogyan lehet egy AI-architektúra lényegi elemeit megőrizni, ugyanakkor extrém mértékben csökkenteni a paraméterszámot.
Felveti a kérdést: milyen lehetőségei és korlátai vannak a hasonlóan miniaturizált modelleknek, és hogyan segíthetik ezek a tanulási folyamatot, akár laikus, akár haladó gépi tanulási érdeklődők számára?










