Az OpenAI legújabb kutatásában azt vizsgálták, hogy a jelenlegi fejlett nyelvi modellek mennyire alkalmasak különböző munkahelyi feladatok automatizálására. A tanulmány középpontjában az áll, mennyire közelítenek ezek a modellek az iparági szakértők által előállított munka minőségéhez, és milyen váratlan eredményeket hozott az elemzés.
Érdekesség, hogy a tesztfeladatokat nem az OpenAI dolgozói, hanem több mint 14 év szakmai tapasztalattal rendelkező, független iparági szakemberek állították össze. Például kiderült, hogy bizonyos fájltípusok – mint a PDF vagy az Excel – kezelése jelentősen befolyásolja a modellek és emberek közötti versenyt.
A kutatás egyik meglepő aspektusa, hogy egyes rivális modellek, így például az Anthropic Claude Opus 4.1, bizonyos feladatokban felülmúlták az OpenAI saját fejlesztéseit. Emellett a tanulmány arra is rámutat, hogy a gépi válaszok értékelésében még az emberi ítészek sem voltak egységesek, azaz a szakértők mindössze 70%-ban értékeltek azonosan egy adott választ.
Az elemzés számos izgalmas kérdést vet fel: vajon tényleg elértük-e azt a fordulópontot, ahol a mesterséges intelligencia képes valóban gyorsítani vagy akár helyettesíteni az emberi munkát? Mely foglalkozások és feladatok védettek még mindig az automatizációval szemben, és hol lehetnek veszélyben a munkakörök? Az is felmerül, hogy mennyire súlyos következményei lehetnek a modellek ‘katasztrofális hibáinak’, például amikor hamis adatokat generálnak.
Az összefoglaló végigveszi az automatizációval kapcsolatos gátakat, példaként hozva fel a radiológia és más szakmák helyzetét, valamint felhívja a figyelmet arra, hogy az igazi digitális forradalomhoz nemcsak a technológia fejlődése szükséges, hanem a társadalmi, jogi és gyakorlati akadályok lebomlása is.