Ez a videó a Mila és a Borealis AI által készített kutatási cikk elemzésével foglalkozik, amely azt vizsgálja, vajon valóban szükségünk van-e a modern, bonyolultabb RNN-szerű (Recurrent Neural Network) modellekre, mint az S4 vagy a Mamba, vagy elegendő lenne a régebbi, egyszerűbb RNN-architektúrák megfelelő használata.
A szerzők felvetik, hogy ezek az új modellek mennyivel nyújtanak többet, vagy esetleg mennyire pótolhatók leegyszerűsített, klasszikus RNN-ekkel, ha azokat módosított formában használjuk. Kiemelik a transformer modellekkel szemben fennálló különbségeket, például a memóriaigényt és a tanítási folyamatot. Az RNN-ek előnye, hogy tetszőlegesen hosszú szekvenciákat tudnak kezelni, de kihívást jelent náluk a visszaterjesztés (backpropagation through time), amit az újabb architektúrák igyekeznek kiküszöbölni.
Részletesen kitérnek a GRU és LSTM nevű RNN-variánsokra, és elmagyarázzák azok működését, például a záró mechanizmust és annak szerepét a tanulásban. Megvizsgálják, hogyan lehetne leegyszerűsíteni ezeket a modelleket úgy, hogy megtartsák a párhuzamosítható számítás előnyeit, amelyet az újabb S4 és Mamba modellek kínálnak.
A videóban szó esik továbbá különféle tesztfeladatokról, mint a hosszú távú memóriakezelést próbára tevő szelektív másolási feladatok vagy egyszerű megerősítéses tanulási feladatok. Arra is kitér az előadó, hogy ezek mennyire alkalmasak a modellek valódi képességeinek összehasonlítására.
Végül olyan kérdéseket vet fel a videó, hogy vajon minden újítás feltétlenül előrelépést jelent-e a szekvenciafeldolgozó hálózatok világában, vagy elegendő lenne visszalépni az alapokhoz, és azokat megfelelően méretezni, illetve igazítani a konkrét feladathoz.