A
A
  • Angol
  • Magyar
  • 8 perc

Engram: a Deepseek új memóriamodulja forradalmasítja a nyelvi modelleket

Az Engram modul gyors memóriakezelést és hatékonyabb problémamegoldást ígér a nagy nyelvi modellek számára. A videóból kiderül, hogyan működik ez a fejlesztés, miként segít a gyakran ismétlődő minták felismerésében, és hogy ez mit jelenthet a jövő mesterséges intelligencia rendszerei számára.

A Deepseek új fejlesztése, az Engram modul, izgalmas előrelépést jelent a nagy nyelvi modellek világában. A beépített memória segítségével a modellek képesek gyorsan felismerni és előhívni ismétlődő kifejezéseket, így nem szükséges minden alkalommal újraalkotni azokat a kezdeti rétegekben.

A videó közérthetően magyarázza el, hogyan működik az Engram: a szöveget tokenekre bontják, majd a frissen olvasott szavak vagy szótagok alapján hash függvények segítségével keresnek rá a memória táblákban tárolt vektorokra. Egy speciális „kapu” szabályozza, mennyi információt kell megtartani ebből a memóriából az aktuális kontextushoz igazítva.

Megvizsgálják azt is, hogy az Engram képes csökkenteni a GPU terhelését azzal, hogy az emlékeket a memória RAM-ból előre be tudja tölteni, miközben a számítási rétegek között gyorsabban kiválasztható, mire van szükség a további feldolgozás során.

Kitérnek a demóra: egy egyszerű szkript szemlélteti, miként épül fel egy Engrammal ellátott transformer modell, hogyan történik a tokenizálás, és milyen lépések vezetnek el az előrejelzések megszületéséhez. Felmerül a kérdés, hogyan segíthet az Engram a komplex problémamegoldásban, memória-kezelésben és hatékonyságnövelésben a jövő gépi tanuló rendszereiben.