Az xLSTM – egy új, Extended Long Short-Term Memory nevű neurális hálózat-architektúra – célja, hogy ötvözze a klasszikus LSTM-ek és a modern, főként Transformer-alapú nagy nyelvi modellek előnyeit, tanulva az elmúlt évek mesterségesintelligencia-kutatások eredményeiből. Az előadás arra a kérdésre világít rá, hogy vajon a paraméterszám vagy az architektúra típusa a döntő tényező egy nyelvi modell sikerében.
Feltérképezi az LSTM-ek múltbeli szerepét a mélytanulás fejlődésében, valamint összehasonlítja a régi és az új módszereket: soros feldolgozás kontra párhuzamosítás, memóriahatékonyság és az adatok feldolgozásának mélysége. Az xLSTM-ben bemutatott újítások – mint például az exponenciális kapuzás, a normalizációs eljárások és a mátrixmemóriakezelés – arra irányulnak, hogy az LSTM-eket versenyképessé tegyék a modern nyelvi modellekkel szemben.
Az előadás rávilágít arra a kihívásra, hogy mennyire lehet az LSTM-eket skálázni, és mi történik, ha modern ötletekkel, például többfejű memóriakezeléssel, új nemlinearitásokkal és normalizációval egészítik ki őket. Izgalmas kérdéseket vet fel: tényleg számít-e az architektúra, vagy csak a paraméterméret? Lehetséges-e, hogy az LSTM-ek ismét előretörnek, ha megfelelően bővítik őket?
Az előadó kitér a bemutatott két fő újításra – az SL-LSTM (skaláris memória és exponenciális kapuzás) és az M-LSTM (mátrixmemória, párhuzamosíthatóság) –, részletezi a technikai különbségeket és magyarázatot ad az új memória-működés hátterére. Megjelenik a felhasználói oldali dilemmák és egyéb kutatói visszacsatolások bemutatása is: vajon az új modellek tényleg jobbak, vagy csak másképp jók?