Az SRE, azaz a Site Reliability Engineering szerep világába kalauzolja a nézőt a videó, elmagyarázva, hogy miként vált a Google által megalkotott munkakör a DevOps kultúra egyik legizgalmasabb részévé. A pozíció lényege az üzemeltetés és a szoftvermérnöki szemlélet ötvözése, melynek célja megbízható és jól skálázható rendszerek létrehozása.
Felmerül a kérdés: mennyire könnyű pályakezdőként elhelyezkedni ezen a területen, illetve egyáltalán mit csinál egy SRE nap mint nap? Szó esik a szükséges készségekről, és arról, milyen eszközök és feladatok segítik a mérnökök munkáját a folyamatos rendelkezésre állás elérésében, valamint az incidensek kezelésében.
Kiemelten tárgyalja az SLI, SLO, SLA fogalmakat – hogyan mérjük és garantáljuk a szolgáltatások megbízhatóságát, mit jelent az ‘error budgeting’ és milyen döntéseket kell emiatt meghozni a fejlesztési folyamatokban. A rendszeres monitorozás, automatizálás és incidenskezelés mellett szóba kerülnek olyan izgalmas példák is, mint a Netflix ‘chaos monkey’-ja vagy a Gmail 99,9%-os rendelkezésre állási célja.
A videó betekintést enged az SRE mérnökök felelősségeibe, a kihívásokba, a munkaeszközökbe (pl. monitorozó rendszerek, logmenedzsment, riasztó eszközök) és abba, hogy miként lesz valakiből jó SRE – ideértve a szükséges alaptudást a programozás, felhőtechnológiák és automatizáció területén.