Az epizód bemutatja, hogyan lehet a DeepSeek V4 Flash mesterséges intelligencia modellt helyben, saját szerveren futtatni, elkerülve a külső API-k használatát. A telepítés során a szerver hardveres követelményeit is részletesen ismertetik, beleértve a két NVIDIA H100 GPU-t és a szükséges VRAM mennyiségét.
A folyamat során számos technikai lépést mutatnak be: a szerver elindítását, a szükséges szoftverek – például a vLLM és a PyTorch – telepítését, és a modell súlyainak megfelelő formátumba konvertálását. Kiemelik a modell kvantálási megoldásait, amelyek segítenek kezelni a jelentős memóriaigényt.
Érdekes technológiai innovációkat is érintenek, mint például a DeepSeek újfajta figyelmi mechanizmusait és a modell óriási, akár regényhosszúságú szövegek kezelésére alkalmas kontextusablakát. Szó esik a különböző üzemmódokról (gondolkodó, nem gondolkodó, szakértő), amelyek tovább szélesítik a lehetséges felhasználási köröket.
A helybeni futtatás beállítása után egy gyakorlati példán keresztül tesztelik a modellt: egy HTML-alapú, valós idejű, Brian agya nevű celluláris automatát generáltatnak vele, megfigyelve a tokenszám/alapú teljesítményt és a szimuláció kezelhetőségét.










