Kimi AI App Try Now

Modelos Kimi: Potência Multimodal e Agentes de IA Avançados

Explore a revolução da inteligência artificial com os modelos Kimi K2.5 e K2, líderes em raciocínio e inovação multimodal.

Experimentar Agora

Visão geral dos modelos Kimi

Visão geral dos modelos Kimi

A plataforma Kimi, desenvolvida pela Moonshot AI, oferece uma linha impressionante de modelos de inteligência artificial construídos sobre uma arquitetura Mixture-of-Experts de 1 trilhão de parâmetros. O modelo topo de gama Kimi K2.5, lançado em janeiro de 2026, entrega capacidades multimodais nativas, coordenação de enxame de agentes e um desempenho em testes de referência que rivaliza com o GPT-5.2 e o Claude Opus 4.5. Quer necessite de respostas rápidas para consultas simples, raciocínio profundo para problemas complexos ou fluxos de trabalho de agentes autónomos, a família de modelos Kimi cobre todos os casos de uso.

O ecossistema Kimi evoluiu rapidamente desde o lançamento do K1.5 em janeiro de 2025. Cada lançamento subsequente expandiu as capacidades desde o raciocínio apenas de texto até à compreensão multimodal completa com vídeo, imagens e documentos. Todos os modelos da série K2 partilham a mesma base MoE de 1T, mas diferem nos dados de treino, conjuntos de funcionalidades e modos operacionais. Atualmente, em 2026, todo o modelo K2.5 é de código aberto sob uma Licença MIT Modificada, disponível no Hugging Face para implementação em servidores próprios.

Modelo Data de Lançamento Parâmetros Janela de Contexto Principais Características
Kimi K2.5 Janeiro de 2026 1T MoE (32B ativos) 256K tokens Multimodal nativo, Enxame de Agentes, código aberto
Kimi K2-Instruct-0905 Setembro de 2025 1T MoE (32B ativos) 256K tokens Programação melhorada, contexto alargado
Kimi K2 Julho de 2025 1T MoE (32B ativos) 128K tokens Primeiro MoE de 1T, base de código aberto
Kimi Linear Outubro de 2025 48B MoE (3B ativos) 128K tokens Leve, inferência eficiente
Kimi-VL Abril de 2025 16B MoE (3B ativos) 128K tokens Visão e linguagem, multimodal compacto
Kimi K1.5 Janeiro de 2025 Não revelado 128K tokens Paridade de raciocínio com OpenAI o1

Modelo principal Kimi K2.5

Modelo principal Kimi K2.5

O Kimi K2.5 representa o modelo mais capaz da linha, treinado em aproximadamente 15 trilhões de tokens mistos de texto e visão através de um pré-treino contínuo sobre a base do K2. A arquitetura utiliza 384 especialistas com 8 ativados por token, Multi-Latent Attention (MLA) e ativação SwiGLU. O design multimodal nativo integra o MoonViT-3D, um codificador de visão de 400M de parâmetros que utiliza empacotamento NaViT para entrada de imagens com resolução variável.

Quatro modos de operação

O K2.5 opera em quatro modos distintos, cada um otimizado para diferentes fluxos de trabalho. O K2.5 Instant fornece respostas rápidas sem processamento analítico para consultas diretas. O K2.5 Thinking activa o raciocínio em cadeia para problemas complexos. O K2.5 Agent permite o uso de ferramentas por um único agente para a conclusão de tarefas autónomas. O K2.5 Agent Swarm coordena até 100 subagentes especializados que trabalham em paralelo, reduzindo o tempo de execução em 4,5 vezes.

Modo Caso de Uso Velocidade Profundidade de Raciocínio
K2.5 Instant Respostas rápidas, tarefas simples A mais rápida Padrão
K2.5 Thinking Matemática, lógica, análise complexa Moderada Cadeia de raciocínio profunda
K2.5 Agent Uso de ferramentas, execução de código Depende da tarefa Raciocínio agêntico
K2.5 Agent Swarm Pesquisa complexa, fluxos multietapa 4,5x mais rápido que agente único Multiaugente distribuído

Desempenho em testes de referência

O K2.5 atinge 96,1% no AIME 2025 (GPT-5.2: 100%), 98,0% no MATH-500 e 87,6% no GPQA-Diamond. Na área da programação, obtém 83,1% no LiveCodeBench v6, superando significativamente os 64,0% do Claude Opus 4.5. O modo Agent Swarm alcançou 50,2% no Humanity's Last Exam com ferramentas, ultrapassando os 45,5% do GPT-5.2 com um custo 76% inferior. As capacidades de visão incluem 92,3% no OCRBench e 86,6% no VideoMMMU.

Modelo base Kimi K2

Modelo base Kimi K2

Lançado em julho de 2025, o K2 foi o primeiro modelo MoE de 1 trilhão de parâmetros da Moonshot AI e serviu de base para todos os lançamentos subsequentes da série K2. Disponibilizado como código aberto sob a Licença MIT, estabeleceu a arquitetura de 384 especialistas com 32B de parâmetros ativos que o K2.5 herdou. O lançamento original suportava 128K tokens de contexto, sendo posteriormente estendido para 256K com a atualização Instruct de setembro de 2025.

O K2-Instruct-0905 trouxe melhorias significativas na geração de código e a janela de contexto expandida. Esta atualização obteve 94,5% no HumanEval, demonstrando fortes competências de programação. A variante Instruct permanece disponível como uma alternativa de apenas texto para utilizadores que não necessitam de funcionalidades multimodais.

Modelos de arquitetura leve

Modelos de arquitetura leve

Kimi Linear

Lançado em outubro de 2025, o Kimi Linear utiliza uma arquitetura MoE compacta de 48B com apenas 3B de parâmetros ativos por token. Projetado para implementação em dispositivos locais e ambientes com recursos limitados, entrega um desempenho surpreendente em relação ao seu tamanho. O modelo suporta um contexto de 128K tokens e funciona de forma eficiente em hardware de consumo, sendo adequado para aplicações móveis e cenários de alto rendimento onde a latência é mais crítica que a capacidade máxima.

Kimi-VL

O Kimi-VL é um modelo de visão e linguagem MoE de 16B de parâmetros com 3B de parâmetros ativos. Foi o primeiro modelo multimodal de código aberto da Moonshot AI, projetado para tarefas que combinam a compreensão de imagem com a geração de texto. Embora tenha sido superado pelas capacidades multimodais nativas do K2.5 em cargas de trabalho exigentes, o Kimi-VL continua a ser valioso para tarefas de visão leves onde o modelo completo de 1T seria excessivo.

Modelo de raciocínio Kimi K1.5

Modelo de raciocínio Kimi K1.5

O K1.5 marcou a entrada da Moonshot AI nos modelos de raciocínio avançado em 2025. Alcançou paridade de desempenho com o OpenAI o1 em testes de matemática e programação, introduzindo capacidades de raciocínio baseadas em aprendizagem por reforço na plataforma Kimi. Embora a contagem exata de parâmetros nunca tenha sido revelada, o K1.5 demonstrou que a empresa poderia competir na fronteira do raciocínio de IA.

Este modelo focou-se exclusivamente no raciocínio baseado em texto. O seu lançamento estabeleceu a Moonshot AI como um competidor sério no espaço de modelos analíticos e preparou o terreno para a série K2. Recomenda-se que os utilizadores que ainda utilizam o K1.5 atualizem para o K2.5, que supera o seu antecessor em todos os indicadores, adicionando capacidades multimodais e agênticas.

Perguntas frequentes

Qual é o melhor modelo Kimi disponível?

O Kimi K2.5 é o modelo mais capaz em todas as métricas, incluindo raciocínio, programação e visão. Lidera no OCRBench com 92,3% e oferece o sistema de agentes mais avançado. Para utilizadores que não procuram o desempenho de pico, o Kimi Linear oferece uma excelente relação entre capacidade e custo computacional.

Os modelos Kimi são gratuitos?

Os modelos Kimi estão acessíveis sem custos através do site oficial e das aplicações móveis. O acesso via API utiliza uma estrutura de preços por token, começando em 0,60 dólares por milhão de tokens de entrada para o K2.5. Os pesos de código aberto no Hugging Face podem ser descarregados livremente para utilização comercial sob a Licença MIT Modificada.

É possível executar os modelos Kimi localmente?

O K2.5 e o K2 estão disponíveis no Hugging Face no formato block-fp8, permitindo a implementação via vLLM ou Transformers. O modelo completo de 1T exige recursos substanciais de GPU. O Kimi Linear é a opção mais adequada para execução local em hardware de nível de consumidor.

Qual é a diferença entre o K2 e o K2.5?

O K2.5 introduz capacidades multimodais nativas através do codificador MoonViT-3D e o modo Agent Swarm para processamento paralelo. Enquanto o K2 original era focado em texto com um contexto de 128K, o K2.5 processa nativamente imagens e documentos com uma janela de 256K tokens.

O que é a arquitetura MoE utilizada nos modelos?

A arquitetura Mixture-of-Experts (MoE) utiliza múltiplos especialistas (ex: 384 especialistas no K2.5) onde apenas uma pequena fração (ex: 32B de parâmetros ativos) é utilizada para processar cada token, garantindo alta eficiência.

O Kimi K2.5 supera o GPT-5.2?

O K2.5 rivaliza com o GPT-5.2 em testes de referência, superando-o em áreas como programação (LiveCodeBench) e eficiência de custo no processamento de agentes complexos.