Sammenligning av ytelsestester

Sammenligning av ytelsestester

Resultater fra standardiserte tester avslører tydelige mønstre for hvor hver modell dominerer. GPT-5.2 leder på ren matematisk resonnering, mens Kimi K2.5 utmerker seg i konkurranseprogrammering og oppgaver som krever verktøybruk. Avstanden mellom disse modellene har minsket dramatisk, noe som gjør valget mer avhengig av spesifikke bruksområder enn generell overlegenhet.

Ytelsestest Kimi K2.5 GPT-5.2 Vinner
AIME 2025 (Matematikk) 96,1 % 100 % GPT-5.2
MATH-500 98,0 % ~97 % Kimi K2.5
GPQA-Diamond 87,6 % 92,4 % GPT-5.2
MMLU-Pro 87,1 % ~88 % Jevnt
LiveCodeBench v6 83,1 % ~75 % Kimi K2.5
HLE-Full (med verktøy) 50,2 % 45,5 % Kimi K2.5
OCRBench 92,3 % ~85 % Kimi K2.5

Den mest slående forskjellen finnes i LiveCodeBench v6, der Kimi K2.5 med 83,1 % slår GPT-5.2 betydelig. På Humanity’s Last Exam med tilgang til verktøy skåret Kimis Agent Swarm 50,2 % mot GPT-5.2 sine 45,5 %, noe som demonstrerer overlegen flertrinns resonnering med eksterne verktøy. GPT-5.2 opprettholder en klar ledelse på AIME 2025 with en perfekt skåre på 100 % og GPQA-Diamond med 92,4 % mot 87,6 %.