Sammenligning av ytelsestester

Resultater fra standardiserte tester avslører tydelige mønstre for hvor hver modell dominerer. GPT-5.2 leder på ren matematisk resonnering, mens Kimi K2.5 utmerker seg i konkurranseprogrammering og oppgaver som krever verktøybruk. Avstanden mellom disse modellene har minsket dramatisk, noe som gjør valget mer avhengig av spesifikke bruksområder enn generell overlegenhet.
| Ytelsestest | Kimi K2.5 | GPT-5.2 | Vinner |
|---|---|---|---|
| AIME 2025 (Matematikk) | 96,1 % | 100 % | GPT-5.2 |
| MATH-500 | 98,0 % | ~97 % | Kimi K2.5 |
| GPQA-Diamond | 87,6 % | 92,4 % | GPT-5.2 |
| MMLU-Pro | 87,1 % | ~88 % | Jevnt |
| LiveCodeBench v6 | 83,1 % | ~75 % | Kimi K2.5 |
| HLE-Full (med verktøy) | 50,2 % | 45,5 % | Kimi K2.5 |
| OCRBench | 92,3 % | ~85 % | Kimi K2.5 |
Den mest slående forskjellen finnes i LiveCodeBench v6, der Kimi K2.5 med 83,1 % slår GPT-5.2 betydelig. På Humanity’s Last Exam med tilgang til verktøy skåret Kimis Agent Swarm 50,2 % mot GPT-5.2 sine 45,5 %, noe som demonstrerer overlegen flertrinns resonnering med eksterne verktøy. GPT-5.2 opprettholder en klar ledelse på AIME 2025 with en perfekt skåre på 100 % og GPQA-Diamond med 92,4 % mot 87,6 %.




