Yapay Zeka Performans Ölçütleri

Ham kıyaslama puanları, her modelin hangi alanlarda üstünlük kurduğuna dair net modeller ortaya koymaktadır. GPT-5.2 saf matematiksel akıl yürütme konusunda liderliğini korurken, Kimi K2.5 rekabetçi programlama ve araç destekli görevlerde mükemmel performans sergilemektedir. Bu modeller arasındaki fark 2026 yılında iyice daralmıştır, bu da seçimi genel üstünlükten ziyade belirli kullanım senaryolarına uygunluk meselesi haline getirmektedir.
| Kıyaslama Testi | Kimi K2.5 | GPT-5.2 | Kazanan |
|---|---|---|---|
| AIME 2025 (Matematik) | %96,1 | %100 | GPT-5.2 |
| MATH-500 | %98,0 | ~%97 | Kimi K2.5 |
| GPQA-Diamond | %87,6 | %92,4 | GPT-5.2 |
| MMLU-Pro | %87,1 | ~%88 | Yakın |
| LiveCodeBench v6 | %83,1 | ~%75 | Kimi K2.5 |
| HLE-Full (Araçlar ile) | %50,2 | %45,5 | Kimi K2.5 |
| OCRBench | %92,3 | ~%85 | Kimi K2.5 |
En dikkat çekici fark, Kimi K2.5'in %83,1 ile GPT-5.2'yi önemli ölçüde geride bıraktığı LiveCodeBench v6 testinde görülmektedir. Araç erişimi olan Humanity's Last Exam testinde Kimi'nin Agent Swarm yapısı, GPT-5.2'nin %45,5'lik skoruna karşılık %50,2 alarak harici araçlarla çok adımlı akıl yürütme gücünü kanıtlamıştır. GPT-5.2 ise AIME 2025'teki kusursuz %100 puanı ve GPQA-Diamond'daki %92,4'lük başarısı ile liderliğini sürdürmektedir.




