A bemutatott videó azt járja körül, hogy miként lehet mesterséges intelligencia segítségével teljes zenei számokat generálni kizárólag helyben, mindössze 6 GB VRAM memóriaigénnyel. A SongBloom DPO modell és a ComfyUI eszköz telepítésének és használatának lépései részletesen bemutatásra kerülnek. Felhívja a figyelmet arra, hogy mindezt lokális környezetben, teljesen privát módon valósíthatjuk meg, akár Ubuntu rendszeren is.
Különböző zenei stílusok, például afrobeat, dubstep és bollywoodi zene kerülnek kipróbálásra, amelyekhez a felhasználó szövegeket és referencia audiót ad meg. A folyamat során szó esik a VRAM-felhasználásról, a rendszer követelményeiről és a referenciahang jelentőségéről is. Megvizsgálja, hogy mennyiben képes a SongBloom DPO modell eltérő nyelvekre vagy zeneműfajokra reagálni, és milyen újdonságokat rejtenek az architektúrában bevezetett megoldások.
Az is terítékre kerül, milyen előnyöket kínál a helyi, tehát nem felhőalapú megoldás, és hogy a nyílt forráskódú modellek hol állnak jelenleg a kereskedelmi, például a Suno-hoz hasonló szolgáltatásokhoz képest. Felvezető összehasonlítások hangzanak el olyan modellekkel, mint a Step vagy a Stable Audio, miközben a hangminőség és a funkcionalitás különbségeit, korlátait és lehetőségeit boncolgatja.