Az összehasonlító tesztek során gyakran alkalmazzák azt, hogy azonos feladatot adnak különböző mesterséges intelligencia modelleknek, mint például a GPT, Claude vagy Gemini. Bár ez elsőre hatékonynak tűnik, nem minden esetben indokolt vagy hasznos.
A videó négy fő kategóriát különít el, amikor érdemes tényleg időt szánni a modellek összehasonlítására: nagy pénzügyi érték, kockázat és felelősségvállalás, esztétikum vagy tanulási cél. Minden kategória mögött más-más motivációk és elvárások állnak, amelyek izgalmas kérdéseket vetnek fel az AI-alapú döntéstámogatásról.
Felmerül a kérdés, hogy manuálisan vagy magával az AI-val érdemes-e értékelni a különböző modellek eredményeit, illetve hogyan lehet elkerülni az elfogultságot a kiértékelés során. A bemutatott tippek között szerepel az eredmények anonimizálása és a reviewers modell kiválasztásának stratégiái.
Az is érdekes dilemmát jelent, miként kezeljük az eseteket, amikor a modellek egymással ellentétes eredményt produkálnak, illetve meddig érdemes folyamatosan összehasonlítani őket, vagy mikor célszerű egy bizonyos modellnél maradni egy adott feladaton.









