基准测试表现分析

Kimi K2.5 在数学、编程和智能体基准测试中表现出色。该模型在竞赛编程和工具增强推理任务中尤为拔尖,巩固了其作为顶级闭源模型强力竞争者的地位。
| 基准测试 | Kimi K2.5 | 最佳竞品表现 |
|---|---|---|
| AIME 2025 | 96.1% | GPT-5.2: 100% |
| MATH-500 | 98.0% | 无对应数据 |
| GPQA-Diamond | 87.6% | GPT-5.2: 92.4% |
| LiveCodeBench v6 | 83.1% | Claude Opus 4.5: 64.0% |
| SWE-Bench Verified | 76.8% | Claude Opus 4.5: 80.9% |
| HLE-Full (使用工具) | 50.2% | GPT-5.2: 45.5% |
| VideoMMMU | 86.6% | 无对应数据 |
| OCRBench | 92.3% | 领先所有竞品 |
在 LiveCodeBench 中,83.1% 的得分使其大幅领先于 Claude Opus 4.5 的 64.0%,这标志着 Kimi K2.5 成为目前最强大的编程模型之一。在测试实际软件工程任务的 SWE-Bench Verified 中,Kimi K2.5 得分为 76.8%,表现出与 Claude Opus 4.5(80.9%)相当的实用开发能力。






