フラッグシップモデルのKimi K2.5

Kimi K2.5は、シリーズの中で最も高い能力を持つモデルであり、K2をベースに約15兆個の視覚およびテキストトークンを用いて継続的な事前学習が行われました。このアーキテクチャは384名のエキスパートで構成され、1トークンにつき8名がアクティブ化される仕組みを採用しています。また、MLA(Multi-Latent Attention)やSwiGLU活性化関数を導入し、効率的な処理を実現しています。視覚面では、可変解像度入力を可能にするNaViTパッキングを活用した4億パラメータのビジョンエンコーダー「MoonViT-3D」を統合しています。
4つの運用モードの活用
K2.5は、ワークフローに合わせて最適化された4つの異なるモードで動作します。「K2.5 Instant」は単純な問い合わせに対して迅速に回答を生成し、「K2.5 Thinking」は複雑な問題に対して思考の連鎖(CoT)を有効にします。「K2.5 Agent」は単一のエージェントがツールを使用してタスクを完結させ、「K2.5 Agent Swarm」は最大100の特化型サブエージェントを並列で調整し、実行時間を大幅に短縮します。
| モード | ユースケース | 速度 | 推論の深さ |
|---|---|---|---|
| K2.5 Instant | クイックレスポンス、単純な作業 | 最速 | 標準的 |
| K2.5 Thinking | 数学、論理、複雑な分析 | 中速 | 深い思考の連鎖 |
| K2.5 Agent | ツールの利用、コード実行、ブラウジング | タスクに依存 | エージェント推論 |
| K2.5 Agent Swarm | 高度なリサーチ、多段階ワークフロー | 単独エージェントより4.5倍高速 | 分散型マルチエージェント |
ベンチマークによる性能評価
K2.5は数学的推論において AIME 2025で96.1%、MATH-500で98.0%、GPQA-Diamondで87.6%という高いスコアを記録しました。プログラミング分野のLiveCodeBench v6では83.1%を達成し、他社の主要モデルを大きく上回る性能を示しています。また、エージェントスウォームモードを活用することで、Humanity's Last Examにおいてツールを用いた場合に50.2%の正答率を記録し、高いコストパフォーマンスを実現しました。視覚性能においてもOCRBenchで92.3%、VideoMMMUで86.6%と、業界トップクラスの数値を維持しています。





