Az általános nézet szerint az Nvidia GPU-k gyorsak, de nagy energiaigényűek, míg az Apple processzorok hatékonyabbak, de lassabbak. Ezt a vélekedést alakítja át a Loose fejlesztői csapat új fejlesztése, a Mega kernel.
Ebben az összeállításban a szerző azt mutatja be, hogyan sikerült egy 3,58 milliárd paraméteres mesterséges intelligencia modellt egyetlen CUDA kernel segítségével, CPU bevonása nélkül, a megszokott töredezett rétegezés helyett folyamatosan, sokkal gyorsabban futtatni ugyanazon a hardveren.
Az összehasonlítás számos népszerű AI-keretrendszerrel történik, mint például a llama.cpp és a PyTorch Hugging Face rendszerek, rámutatva az energiahatékonyság és a sebesség különbségeire különböző GPU-kon és Apple M5 Max chipeken. Ezzel együtt felteszi a kérdést: valóban a hardverben rejlik a különbség, vagy inkább a futtatott szoftver optimalizáltsága alakítja a mérési eredményeket?
Feltárul a DeltaNet és a teljes figyelmi rétegek hibrid architektúrájának jelentősége, valamint az, hogy miként tudja a Mega kernel szoftver egy egyedi futtatási módszerrel teljesen megfordítani az eddig elfogadott energiahatékonysági elvárásokat. Izgalmas dilemmák és technológiai részletek kerülnek elő, amelyek új megvilágításba helyezik az otthoni AI-futtatás lehetőségeit.










