Prestaties in benchmarks

Kimi K2.5 levert resultaten van het hoogste niveau in benchmarks voor wiskunde, programmeren en agent-gebaseerde taken. Het model blinkt met name uit in competitief programmeren en redeneertaken met hulpmiddelen, waardoor het een serieuze uitdager is voor de beste gesloten modellen.
| Benchmark | Kimi K2.5 | Beste concurrent |
|---|---|---|
| AIME 2025 | 96,1% | GPT-5.2: 100% |
| MATH-500 | 98,0% | Niet beschikbaar |
| GPQA-Diamond | 87,6% | GPT-5.2: 92,4% |
| LiveCodeBench v6 | 83,1% | Claude Opus 4.5: 64,0% |
| SWE-Bench Verified | 76,8% | Claude Opus 4.5: 80,9% |
| HLE-Full (met tools) | 50,2% | GPT-5.2: 45,5% |
| VideoMMMU | 86,6% | Niet beschikbaar |
| OCRBench | 92,3% | Leidt alle concurrenten |
De LiveCodeBench score van 83,1% betekent een enorme voorsprong op Claude Opus 4.5, wat Kimi K2.5 een van de sterkste programmeermodellen op de markt maakt. Op de SWE-Bench Verified, die praktijkgerichte software engineering taken test, scoort Kimi K2.5 een competitieve 76,8%.







