Kimi K2.5 주력 모델

Kimi K2.5는 라인업에서 가장 뛰어난 성능을 가진 모델로, K2 베이스 모델 위에 약 15조 개의 혼합 시각 및 텍스트 토큰을 지속적으로 학습시켜 완성되었습니다. 아키텍처는 384개의 전문가 중 토큰당 8개를 활성화하며, Multi-Latent Attention(MLA)과 SwiGLU 활성화 함수를 사용합니다. 네이티브 멀티모달 설계에는 가변 해상도 이미지 입력을 위해 NaViT 패킹을 활용하는 400M 매개변수의 시각 인코더인 MoonViT-3D가 통합되어 있습니다.
네 가지 동작 모드
K2.5는 각기 다른 워크플로에 최적화된 네 가지 고유 모드로 동작합니다. K2.5 Instant는 간단한 질문에 대해 사고 과정 없이 빠른 응답을 제공합니다. K2.5 Thinking은 복잡한 문제를 해결하기 위해 사고 사슬(Chain-of-thought) 추론을 활성화합니다. K2.5 Agent는 자율적인 작업을 수행하기 위해 단일 에이전트 도구 사용 기능을 제공합니다. K2.5 Agent Swarm은 최대 100개의 전문화된 하위 에이전트를 병렬로 조정하여 실행 시간을 4.5배 단축합니다.
| 모드 | 사용 사례 | 속도 | 추론 깊이 |
|---|---|---|---|
| K2.5 Instant | 빠른 답변, 단순 작업 | 가장 빠름 | 표준 |
| K2.5 Thinking | 수학, 논리, 복잡한 분석 | 보통 | 심층 사고 사슬 |
| K2.5 Agent | 도구 사용, 코드 실행, 검색 | 작업에 따라 다름 | 에이전트 추론 |
| K2.5 Agent Swarm | 복잡한 연구, 다단계 워크플로 | 단일 에이전트 대비 4.5배 빠름 | 분산형 다중 에이전트 |
주요 벤치마크 점수
K2.5는 AIME 2025에서 96.1%(GPT-5.2는 100%), MATH-500에서 98.0%, GPQA-Diamond에서 87.6%를 달성했습니다. 프로그래밍 분야의 경우 LiveCodeBench v6에서 83.1%를 기록하며 Claude Opus 4.5의 64.0%를 크게 상회했습니다. 에이전트 스웜 모드는 도구를 활용한 Humanity's Last Exam 벤치마크에서 50.2%를 기록하여, GPT-5.2의 45.5%보다 76% 낮은 비용으로 더 높은 점수를 얻었습니다. 시각 기능은 OCRBench에서 92.3%, VideoMMMU에서 86.6%를 기록했습니다.





