Performance et tests de référence

Les scores bruts des tests de référence révèlent des tendances claires sur la domination de chaque modèle. GPT-5.2 mène sur le raisonnement mathématique pur, tandis que Kimi K2.5 excelle dans la programmation compétitive et les tâches assistées par des outils. L'écart entre ces modèles s'est considérablement réduit, transformant le choix final en une question d'adéquation à un cas d'usage spécifique plutôt qu'en une supériorité globale absolue.
| Référence (Benchmark) | Kimi K2.5 | GPT-5.2 | Vainqueur |
|---|---|---|---|
| AIME 2025 (Maths) | 96,1 % | 100 % | GPT-5.2 |
| MATH-500 | 98,0 % | ~97 % | Kimi K2.5 |
| GPQA-Diamond | 87,6 % | 92,4 % | GPT-5.2 |
| MMLU-Pro | 87,1 % | ~88 % | Égalité |
| LiveCodeBench v6 | 83,1 % | ~75 % | Kimi K2.5 |
| HLE-Full (avec outils) | 50,2 % | 45,5 % | Kimi K2.5 |
| OCRBench | 92,3 % | ~85 % | Kimi K2.5 |
La différence la plus frappante apparaît dans LiveCodeBench v6, où le score de 83,1 % de Kimi K2.5 dépasse nettement celui de GPT-5.2. Sur le test Humanity's Last Exam avec accès aux outils, le système Agent Swarm de Kimi a obtenu 50,2 % contre 45,5 % pour GPT-5.2, démontrant un raisonnement multi-étapes supérieur avec des outils externes. GPT-5.2 conserve une avance nette sur AIME 2025 avec un score parfait de 100 % et sur GPQA-Diamond avec 92,4 % contre 87,6 %.




