A Google legújabb fejlesztése, a Translate Gemma modell, jelentős újításokat hoz a fordítás területén: lehetővé teszi, hogy akár egy hétköznapi laptopon vagy asztali számítógépen is futtassuk a magas minőségű gépi fordítást.
Az új modellt háromféle méretben is elérhetővé tették, amelyek 4, 12 és 27 milliárd paraméterrel dolgoznak, és összesen 55 nyelv fordítását támogatják. Külön érdekesség, hogy támogatja a képekből történő szövegkinyerést és fordítást anélkül, hogy speciális multimodális finomhangolást kellene alkalmazni.
A videó során a modell telepítése és tesztelése mellett szó esik az építészeti újításokról is, például a kétlépcsős tanítási folyamatról, ahol egyaránt használnak emberi fordításokat és mesterségesen generált adatokat is.
Bemutatásra kerül, hogyan teljesít a modell különböző nyelveken, illetve milyen kihívásokat jelent a GPU-memória fogyasztása és a feldolgozási sebesség, valamint szó esik arról is, hogy milyen feltételek mellett működik legjobban a képalapú fordítás.
Több kérdés is felmerül: elegendő-e a 2K karakteres kontextus hossza a fordításokhoz, mennyire tartható meg a minőség különböző nyelveken, és mely helyzetekben mutat gyengeséget a modell?










