Az Anthropic bemutatta legújabb nagy nyelvi modelljét, a Claude Opus 4.5-öt, amely számos benchmark teszten kiemelkedő eredményt ért el a kódírás, ügynöki feladatok és általános számítógép-használat terén.
A videó részletesen összehasonlítja az Opus 4.5-öt a rivális modellekkel, mint például a Gemini 3 Pro, Codeex Max vagy GPT 5.1, kitérve a Swebench, Terminal Bench, GPQA Diamond, MMU, MMLU és Vending Bench tesztek eredményeire. Felmerül a kérdés, hogy milyen területen és hogyan teljesít jobban vagy gyengébben az új modell a konkurenciánál.
Kiemelt téma az is, hogyan használja az Opus 4.5 a különféle eszközöket (haladó eszközhasználat) anélkül, hogy fölöslegesen terhelné a kontextus ablakot, valamint hogy miként teszi hatékonyabbá az LLM alapvető eszközhasználatát. Felmerül, mennyire fontos a modellek általános hatékonysága, intelligencia/tokén aránya, illetve a költségek és a teljesítmény viszonya.
A néző betekintést kap abba, hogy az új modell mennyire képes emberi teljesítményt is túlszárnyalni, például kódolási felvételi feladatokban, valamint szó esik arról is, hogyan vélekednek az első felhasználók és tesztelők az Opus 4.5-ről.










