Milyen lehetőségeket rejt magában, ha egy mesterséges intelligencia modellt annyira összetömörítünk, hogy szinte alig igényel memóriát? Az Angel Slim eljárás ezt tűzte ki célul: a kvantizációs technikák alkalmazásával jelentősen csökkenti a modellek méretét, miközben azok teljesítményét csak minimálisan befolyásolja.
A kvantizáció lényegét olyan hasonlattal írják le, mint amikor egy nagy felbontású képet JPEG-be tömörítünk – bizonyos részletek elvesznek ugyan, de a fájl mérete jelentősen lecsökken. Az Angel Slim viszont nem csak utólag tömörít, hanem már a modell tanítása közben végzi a kvantizációt, így a mesterséges intelligencia már a korlátozott pontosságú adatokhoz tud alkalmazkodni, tanulni.
Az ismeretterjesztő bemutatóban kiemelik a Hanjon 1.8B modellt, amelynek kétbites változata extrém módon kicsi helyet foglal, mégis csak elenyésző mértékben veszít a pontosságából a teljes precizitású modellekhez képest. Érdekes kérdés, hogyan reagálnak ezek a – már-már kicsinyített – modellek a valós használati helyzetekre, és miben rejlik a „dual chain of thought” képesség előnye.
További kihívásokat vet fel, hogy mennyire univerzálisan használható ez a technika, illetve mennyire erős hardverigény szükséges manapság egy hasonló modell futtatásához. A videóban bemutatják egy Nvidia RTX 6000 videókártyán a modell telepítését, és példákat is láthatunk az alacsony memóriafogyasztásra. A helyes működés mellett szó esik a modellek különféle válaszadási módjairól és arról, hogyan választhatunk köztük a konkrét felhasználás során.








