Az IBM legújabb beszédmodellje, a Granite-4 1B, felkeltette a mesterséges intelligencia iránt érdeklődők figyelmét, köszönhetően lenyűgöző teljesítményének. A modell különböző nyelveken végzi el a beszédfelismerést és fordítást, amelyek közé tartozik az angol, francia, német, spanyol, portugál és japán is.
Technikai szempontból kiemelkedő az architektúra, amely egy háromlépcsős feldolgozó láncot alkalmaz: a nyers hang feldolgozását blokkonként, majd a leképezések sűrítését végző transformerrel, végül pedig a szövegkimenetet előállító nagyméretű nyelvi modellel. Az egész konstrukció könnyen telepíthető helyi gépen is.
Érdekes összehasonlítások derülnek ki a különböző benchmarkokból, hiszen a Granite-4 1B viszonylag kevés paraméterrel versenyez sokkal nagyobb modellekkel, mégis gyakran jobban teljesít azoknál. A bemutatóban több nyelven is kipróbálják, és a felhasználók véleményét is kíváncsian várják a minőség és pontosság tekintetében.
Az eszköz különös hangsúlyt fektet arra is, hogy mennyire kis hardverigénye van, így bárki kipróbálhatja akár saját gépén is. A felhasználói felület egyszerű, a különböző funkciókat gyorsan el lehet érni, például a hangfelismerést, fordítást vagy a szünetek kezelését.










