A videóban a különböző operációs rendszerek – Windows, WSL (Windows Subsystem for Linux) és Linux (Ubuntu) – helyi LLM-ek (Nagy Nyelvi Modellek) futtatási teljesítményét hasonlítják össze. Kiemelt szerepet kap, hogy ugyanazon hardveren, különböző rendszerek alatt mennyire tér el a modellek sebessége és hatékonysága.
Az összehasonlítás során az LM Studio nevű alkalmazást és többféle Nvidia GPU-t (GeForce RTX 5080, 5090 és RTX Pro 6000) használnak a teszteléshez. Részletesen bemutatják a GPU-k terhelését, memóriakezelését, illetve azt, hogy egyes modellek – például Gemma 34B, Deepseek R1 Distill Quen 7B vagy Llama 3 – különféle platformokon milyen teljesítményt nyújtanak.
A bemutató rávilágít arra is, hogy WSL és natív Linux között milyen apró, de időnként jelentős eltérések lehetnek a tokensebességben. Szóba kerülnek a GPU offload lehetőségei, valamint az, hogy egyes modellek mérete már túl nagy lehet a videókártya memóriájához képest, ezért a program kénytelen a CPU-t használni, ami jelentősen lassíthatja a feldolgozást.
Végül a hardveres és szoftveres környezetek közti különbségekkel kapcsolatban izgalmas kérdéseket vetnek fel arról, hogy fejlesztők és AI-kutatók számára melyik platform lehet a leghatékonyabb különböző szcenáriókban.