Dwarf Star: Az új inference engine bemutatója és teszteredményei különböző hardvereken ✦ UMA

A videó a Dwarf Star új inference engine-jét mutatja be, kiemelve a futtatási követelményeket, előnyöket és teszteredményeket különféle hardvereken.

Az összeállítás bemutatja a Dwarf Star-t, egy újonnan készült, teljesen önálló inference engine-t, amelyet a Radius fejlesztője alkotott. Ez az eszköz nem csupán egy Llama CPP wrapper vagy általános GGUF-futtató, hanem önálló rendszer saját CUDA és Metal háttérrel, valamint egyedi KV-cache megvalósítással, amely támogatja a munkamenetek lemezre mentését és visszaállítását is.

Külön figyelmet érdemel a beépített HTTP-szerver, amely képes egyszerre kezelni OpenAI és Enthropic API-n keresztüli kéréseket. Ezen túl natív kódolási ügynökkel is rendelkezik, amely a folyamaton belül futtat gyors válaszidővel, csökkentve a hálózati késleltetést.

A tesztelés során a telepítés és működés részleteit magyarázza el az előadó, beleértve a különböző hardverkövetelményeket: például egy Nvidia H100 80 GB VRAM mellett sem minden modell futtatható megfelelően, főleg, ha a GPU memóriakapacitása alulmarad a modell igényeihez képest. Kiemeli az Apple Metal platform preferenciáját, valamint figyelmeztet a szoftverek fejlesztési, bétatesztelési státuszára és az ebből adódó lehetséges hibákra.

Felmerülnek kérdések a támogatott GGUF fájltípusokkal, hardverrel, teljesítménnyel és a tipikus felhasználási forgatókönyvekkel kapcsolatban. A tesztek kitérnek az eltérő benchmark-eredményekre Apple és Nvidia rendszerek között, miközben felvezeti, hogy milyen feltételek mellett lehet hatékonyan futtatni a Dwarf Start otthoni környezetben is.

Dwarf Star: Az új inference engine bemutatója és teszteredményei különböző hardvereken

Hasonló tartalmak:

Samsung Galaxy Glasses: a jövő hangalapú okosszemüvegei és az integrált ökoszisztéma

Taylor Swift képzeletbeli esküvője és reggeli viták egy szórakoztató podcastban

Assassin’s Creed Black Flag Resynced PC beállítások: Hogyan optimalizáld a játékélményt

Techóriások titkos pénzmozgásai és az AI-befektetések buborékja

Open MOSS új modellje: átirat és beszélőszétválasztás egyszerre több nyelven