Kimi AI: A Revolução da Inteligência Artificial da Moonshot AI
Explore o poder do modelo Kimi K2.5 com 1 trilhão de parâmetros, arquitetura MoE e processamento multimodal nativo.
Experimentar Agora
Especificações técnicas do Kimi

O Kimi K2.5 utiliza uma arquitetura Mixture of Experts (MoE) com 384 especialistas, ativando 8 por cada token processado. O modelo emprega Multi-Latent Attention (MLA) e ativação SwiGLU, tendo sido treinado em aproximadamente 15 trilhões de tokens mistos de texto e visão. O design multimodal nativo integra o MoonViT-3D, um codificador de visão de 400 milhões de parâmetros que utiliza a estratégia NaViT para processar imagens de resolução variável e compreensão de vídeo.
| Especificação | Detalhes |
|---|---|
| Desenvolvedor | Moonshot AI |
| Modelo mais recente | Kimi K2.5 (Janeiro de 2026) |
| Total de parâmetros | 1 trilhão (32B ativos por token) |
| Arquitetura | MoE com 384 especialistas, MLA, SwiGLU |
| Janela de contexto | 256.000 tokens (256K) |
| Tipos de entrada | Texto, imagens, vídeo, PDF, Excel, Word |
| Codificador de visão | MoonViT-3D (400M parâmetros) |
| Disponibilidade de API | API oficial, OpenRouter, Together AI |
| Preço | Gratuito (Web), 0,60/3,00 dólares por 1M tokens (API) |
| Licença | MIT Modificada (uso comercial permitido) |
O modelo opera em quatro modos distintos projetados para diferentes necessidades de processamento. O K2.5 Instant oferece respostas rápidas sem computação prolongada, enquanto o K2.5 Thinking utiliza raciocínio em cadeia para problemas complexos. O K2.5 Agent foca no uso de ferramentas por um único agente e o K2.5 Agent Swarm coordena até 100 subagentes especializados trabalhando em paralelo. O modo Agent Swarm reduz o tempo de execução em 4,5 vezes e superou o GPT-5.2 em testes de benchmarks avançados com custos significativamente menores.
Desempenho em testes comparativos

O Kimi K2.5 apresenta resultados de alto nível em benchmarks de matemática, programação e automação. O modelo se destaca particularmente em programação competitiva e tarefas de raciocínio auxiliadas por ferramentas, estabelecendo-se como um concorrente robusto contra os melhores modelos de código fechado do mercado atual.
| Benchmark | Kimi K2.5 | Melhor concorrente |
|---|---|---|
| AIME 2025 | 96,1% | GPT-5.2: 100% |
| MATH-500 | 98,0% | Não disponível |
| GPQA-Diamond | 87,6% | GPT-5.2: 92,4% |
| LiveCodeBench v6 | 83,1% | Claude Opus 4.5: 64,0% |
| SWE-Bench Verified | 76,8% | Claude Opus 4.5: 80,9% |
| HLE-Full (ferramentas) | 50,2% | GPT-5.2: 45,5% |
| VideoMMMU | 86,6% | Líder da categoria |
| OCRBench | 92,3% | Líder da categoria |
A pontuação de 83,1% no LiveCodeBench representa uma vantagem massiva sobre os 64,0% do Claude Opus 4.5, posicionando o Kimi K2.5 como um dos modelos mais fortes para desenvolvimento de software. No SWE-Bench Verified, que testa tarefas reais de engenharia de software, o Kimi K2.5 atingiu 76,8% de eficácia. Esses dados comprovam a capacidade do sistema em lidar com cenários práticos de desenvolvimento e correção de erros em larga escala.
Aplicações práticas do Kimi

Os cenários de uso real mostram como as vantagens competitivas do Kimi K2.5 impactam diretamente a produtividade em tarefas que exigem retenção de contexto e automação inteligente.
- Pesquisa e análise de dados: O modo Agent Swarm realiza pesquisas abrangentes ao despachar subagentes para coletar informações de diversas fontes da web ao mesmo tempo.
- Processamento de documentos e OCR: Com liderança em testes de OCR, o modelo extrai dados estruturados de faturas, recibos e notas manuscritas com alta precisão.
- Desenvolvimento de software: Equipes de engenharia carregam repositórios inteiros para que a IA realize revisões de código e implemente novas funcionalidades seguindo a arquitetura existente.
- Interpretação de vídeo: O codificador MoonViT-3D permite analisar vídeos de reuniões ou apresentações técnicas para extrair momentos chave e gerar resumos executivos.
Custos e acesso via API

Atualmente, a interface web e os aplicativos móveis continuam gratuitos para o público geral. Desenvolvedores que criam aplicações comerciais podem acessar o Kimi K2.5 através da API oficial ou de provedores terceirizados como OpenRouter e NVIDIA NIM.
| Provedor | Entrada (por 1M tokens) | Saída (por 1M tokens) | Observações |
|---|---|---|---|
| Moonshot Oficial | 0,60 dólares | 3,00 dólares | Cache de contexto automático |
| OpenRouter | 0,45 dólares | 2,20 dólares | Preços agregados |
| Together AI | 0,50 dólares | 2,80 dólares | Inferência otimizada |
O cache de contexto automático na API oficial reduz os custos de entrada em até 75%, baixando o preço para tokens armazenados em cache. Isso torna o Kimi K2.5 uma alternativa econômica para empresas que processam grandes volumes de datos repetitivos. A API mantém compatibilidade com o formato do SDK da OpenAI, exigindo apenas a alteração da URL base e da chave de autenticação para realizar a migração de sistemas existentes.
- Limites de taxa escalam por níveis de recarga financeira do usuário.
- Janela de contexto suporta até 262.144 tokens por requisição individual.
- Modelo de código aberto disponível no Hugging Face para implantação local via Docker ou vLLM.
Perguntas frequentes
O Kimi AI é gratuito?
A interface de chat e os aplicativos móveis são gratuitos em 2026, sem necessidade de assinatura para interações padrão. O uso da API segue o modelo de tarifação por consumo.
O Kimi é um modelo de código aberto?
Sim, o Kimi K2.5 é distribuído sob uma Licença MIT Modificada, permitindo modificações e uso comercial.
O que diferencia o Agent Swarm?
É uma funcionalidade que divide problemas grandes em tarefas para até 100 agentes internos trabalhando em paralelo, garantindo maior precisão e rapidez.
O Kimi processa vídeos e imagens?
Sim, possui capacidades multimodais nativas para ler tabelas em imagens, identificar objetos e compreender o contexto temporal de vídeos.
Como migrar da OpenAI para o Kimi?
Basta alterar a URL base da API e a chave de autenticação, pois o SDK é compatível com o formato da OpenAI.
Qual é a janela de contexto do Kimi K2.5?
O modelo suporta uma janela de contexto extensa de até 256.000 (256K) tokens.



