Az utóbbi időben rendkívül zsúfolttá vált a szövegből képet generáló AI-modellek területe; szinte minden héten újabb modellek jelennek meg, amelyek mind a legjobbnak hirdetik magukat. Felmerül a kérdés: vajon a Microsoft új modellje, a Lens, valóban nyújt valami mást a konkurenciánál, vagy csak egy újabb alternatíva?
Ez a fejlesztés kevésbé a puszta minőségre fókuszál, inkább a hatékonyság és az alacsonyabb számítási igény áll a középpontban. A Lens modell 3,88 milliárd paraméterrel dolgozik, miközben igyekszik felvenni a versenyt jóval nagyobb modellekkel, anélkül hogy kompromisszumot kellene kötni a képminőség tekintetében.
Érdekes kérdéseket vet fel a különböző modellek összehasonlítása valódi, helyi környezetben történő tesztelése során: mennyire hűen követi a promptokat a Lens? Alaposan vizsgálják például a textúrák és színek minőségét, illetve azt, hogyan jeleníti meg az emberi arcokat vagy éppen a komplex jeleneteket. A tesztek során előkerülnek tipikus AI-hibák: elmosódó vagy irreális testrészek, helytelen objektumok, illetve anatómiai pontatlanságok.
A videó betekintést nyújt a Microsoft Lens modell architektúrájába is. Bemutatja, miben tér el a megszokott sémáktól – például hogy a szokványos szövegkódoló helyett a nagy teljesítményű GPOSS nyelvi modellt használja, illetve a kép- és szöveges adatokat közösen dolgozza fel az attention rétegeken keresztül.
Ezenkívül szó esik a gyakorlati használhatóságról, a rendszer erőforrásigényéről, valamint arról is, hogy a modell bizonyos nyelvekre is képes általánosítani annak ellenére, hogy csak angol adatokon tanították. Ezek felvetik a kérdést: vajon eljön-e az az idő, amikor kisebb, hatékonyabb modellek is felveszik a harcot a legnagyobbakkal?









