A Dolphin egy fejlett dokumentumfeldolgozó modell, amely képes összetett dokumentumokból, például tudományos cikkekből vagy űrlapokból hasznos információkat kinyerni. Az első lépésben a modell felméri a dokumentum teljes szerkezetét: képes a különböző tartalmak – szöveg, képek, táblázatok, képletek – helyét és sorrendjét is megállapítani, hogy azok pontosan legyenek további feldolgozásra előkészítve.
A második fázisban a Dolphin külön-külön is képes feldolgozni az egyes elemeket, legyen szó egy komplex képletről vagy táblázatról, hogy az információk strukturált, jól használható formában jöjjenek létre. Ráadásul utasításokat is adhatunk neki nemcsak angolul, hanem kínaiul is, pontosítva, milyen típusú adatokat szeretnénk kinyerni a dokumentumból.
A videó gyakorlati példákon mutatja be a Dolphin telepítését és első tesztjeit: demonstrálja szövegek, táblázatok, valamint képletek kinyerését egy-egy dokumentumoldal képeiből, sőt, figyeli a hardverhasználatot is. Az architektúra részletein túl bemutatja a Swin Transformer vizuális kódolóját és az mBART szöveg-dekódolóját is. Érdekes dilemmákat vet fel azzal kapcsolatban is, hogy egyes elemek feldolgozása miért lehet problémás, és mennyire pontosak vagy testreszabhatók az eredmények.