Guia dos Modelos Kimi: Performance e Recursos do K2.5 e K2

Visão Geral Kimi K2.5 Kimi K2 Arquitetura Leve Kimi K1.5 Como Escolher FAQ

Visão geral dos modelos Kimi

A plataforma Kimi, desenvolvida pela Moonshot AI, oferece uma linha impressionante de modelos de inteligência artificial construídos sobre uma arquitetura Mixture-of-Experts de 1 trilhão de parâmetros. O modelo topo de gama Kimi K2.5, lançado em janeiro de 2026, entrega capacidades multimodais nativas, coordenação de enxame de agentes e um desempenho em testes de referência que rivaliza com o GPT-5.2 e o Claude Opus 4.5. Quer necessite de respostas rápidas para consultas simples, raciocínio profundo para problemas complexos ou fluxos de trabalho de agentes autónomos, a família de modelos Kimi cobre todos os casos de uso.

O ecossistema Kimi evoluiu rapidamente desde o lançamento do K1.5 em janeiro de 2025. Cada lançamento subsequente expandiu as capacidades desde o raciocínio apenas de texto até à compreensão multimodal completa com vídeo, imagens e documentos. Todos os modelos da série K2 partilham a mesma base MoE de 1T, mas diferem nos dados de treino, conjuntos de funcionalidades e modos operacionais. Atualmente, em 2026, todo o modelo K2.5 é de código aberto sob uma Licença MIT Modificada, disponível no Hugging Face para implementação em servidores próprios.

Modelo	Data de Lançamento	Parâmetros	Janela de Contexto	Principais Características
Kimi K2.5	Janeiro de 2026	1T MoE (32B ativos)	256K tokens	Multimodal nativo, Enxame de Agentes, código aberto
Kimi K2-Instruct-0905	Setembro de 2025	1T MoE (32B ativos)	256K tokens	Programação melhorada, contexto alargado
Kimi K2	Julho de 2025	1T MoE (32B ativos)	128K tokens	Primeiro MoE de 1T, base de código aberto
Kimi Linear	Outubro de 2025	48B MoE (3B ativos)	128K tokens	Leve, inferência eficiente
Kimi-VL	Abril de 2025	16B MoE (3B ativos)	128K tokens	Visão e linguagem, multimodal compacto
Kimi K1.5	Janeiro de 2025	Não revelado	128K tokens	Paridade de raciocínio com OpenAI o1

Modelo principal Kimi K2.5

O Kimi K2.5 representa o modelo mais capaz da linha, treinado em aproximadamente 15 trilhões de tokens mistos de texto e visão através de um pré-treino contínuo sobre a base do K2. A arquitetura utiliza 384 especialistas com 8 ativados por token, Multi-Latent Attention (MLA) e ativação SwiGLU. O design multimodal nativo integra o MoonViT-3D, um codificador de visão de 400M de parâmetros que utiliza empacotamento NaViT para entrada de imagens com resolução variável.

Quatro modos de operação

O K2.5 opera em quatro modos distintos, cada um otimizado para diferentes fluxos de trabalho. O K2.5 Instant fornece respostas rápidas sem processamento analítico para consultas diretas. O K2.5 Thinking activa o raciocínio em cadeia para problemas complexos. O K2.5 Agent permite o uso de ferramentas por um único agente para a conclusão de tarefas autónomas. O K2.5 Agent Swarm coordena até 100 subagentes especializados que trabalham em paralelo, reduzindo o tempo de execução em 4,5 vezes.

Modo	Caso de Uso	Velocidade	Profundidade de Raciocínio
K2.5 Instant	Respostas rápidas, tarefas simples	A mais rápida	Padrão
K2.5 Thinking	Matemática, lógica, análise complexa	Moderada	Cadeia de raciocínio profunda
K2.5 Agent	Uso de ferramentas, execução de código	Depende da tarefa	Raciocínio agêntico
K2.5 Agent Swarm	Pesquisa complexa, fluxos multietapa	4,5x mais rápido que agente único	Multiaugente distribuído

Desempenho em testes de referência

O K2.5 atinge 96,1% no AIME 2025 (GPT-5.2: 100%), 98,0% no MATH-500 e 87,6% no GPQA-Diamond. Na área da programação, obtém 83,1% no LiveCodeBench v6, superando significativamente os 64,0% do Claude Opus 4.5. O modo Agent Swarm alcançou 50,2% no Humanity's Last Exam com ferramentas, ultrapassando os 45,5% do GPT-5.2 com um custo 76% inferior. As capacidades de visão incluem 92,3% no OCRBench e 86,6% no VideoMMMU.

Modelo base Kimi K2

Lançado em julho de 2025, o K2 foi o primeiro modelo MoE de 1 trilhão de parâmetros da Moonshot AI e serviu de base para todos os lançamentos subsequentes da série K2. Disponibilizado como código aberto sob a Licença MIT, estabeleceu a arquitetura de 384 especialistas com 32B de parâmetros ativos que o K2.5 herdou. O lançamento original suportava 128K tokens de contexto, sendo posteriormente estendido para 256K com a atualização Instruct de setembro de 2025.

O K2-Instruct-0905 trouxe melhorias significativas na geração de código e a janela de contexto expandida. Esta atualização obteve 94,5% no HumanEval, demonstrando fortes competências de programação. A variante Instruct permanece disponível como uma alternativa de apenas texto para utilizadores que não necessitam de funcionalidades multimodais.

Modelos de arquitetura leve

Kimi Linear

Lançado em outubro de 2025, o Kimi Linear utiliza uma arquitetura MoE compacta de 48B com apenas 3B de parâmetros ativos por token. Projetado para implementação em dispositivos locais e ambientes com recursos limitados, entrega um desempenho surpreendente em relação ao seu tamanho. O modelo suporta um contexto de 128K tokens e funciona de forma eficiente em hardware de consumo, sendo adequado para aplicações móveis e cenários de alto rendimento onde a latência é mais crítica que a capacidade máxima.

Kimi-VL

O Kimi-VL é um modelo de visão e linguagem MoE de 16B de parâmetros com 3B de parâmetros ativos. Foi o primeiro modelo multimodal de código aberto da Moonshot AI, projetado para tarefas que combinam a compreensão de imagem com a geração de texto. Embora tenha sido superado pelas capacidades multimodais nativas do K2.5 em cargas de trabalho exigentes, o Kimi-VL continua a ser valioso para tarefas de visão leves onde o modelo completo de 1T seria excessivo.

Modelo de raciocínio Kimi K1.5

O K1.5 marcou a entrada da Moonshot AI nos modelos de raciocínio avançado em 2025. Alcançou paridade de desempenho com o OpenAI o1 em testes de matemática e programação, introduzindo capacidades de raciocínio baseadas em aprendizagem por reforço na plataforma Kimi. Embora a contagem exata de parâmetros nunca tenha sido revelada, o K1.5 demonstrou que a empresa poderia competir na fronteira do raciocínio de IA.

Este modelo focou-se exclusivamente no raciocínio baseado em texto. O seu lançamento estabeleceu a Moonshot AI como um competidor sério no espaço de modelos analíticos e preparou o terreno para a série K2. Recomenda-se que os utilizadores que ainda utilizam o K1.5 atualizem para o K2.5, que supera o seu antecessor em todos os indicadores, adicionando capacidades multimodais e agênticas.

Como escolher o modelo Kimi ideal

A seleção do modelo depende dos seus requisitos específicos de capacidade, custo e flexibilidade de implementação. A lista seguinte ajuda a alinhar os casos de uso com a escolha ideal do modelo.

IA de uso geral com capacidade máxima: utilize o K2.5 através da API ou do portal kimi.com.
Fluxos de trabalho autónomos e investigação: utilize o modo K2.5 Agent ou Agent Swarm para tarefas complexas.
Implementação em servidor próprio: descarregue o K2.5 do Hugging Face e utilize ferramentas como vLLM ou Docker.
Implementação local ou em dispositivos móveis: escolha o Kimi Linear para ambientes com hardware modesto.
Tarefas de visão simples com baixo orçamento: utilize o Kimi-VL quando as capacidades totais do K2.5 forem excessivas.
Raciocínio de texto com custo reduzido: opte pelo K2-Instruct-0905 se não necessitar de processamento de imagem.

Perguntas frequentes

Qual é o melhor modelo Kimi disponível?

O Kimi K2.5 é o modelo mais capaz em todas as métricas, incluindo raciocínio, programação e visão. Lidera no OCRBench com 92,3% e oferece o sistema de agentes mais avançado. Para utilizadores que não procuram o desempenho de pico, o Kimi Linear oferece uma excelente relação entre capacidade e custo computacional.

Os modelos Kimi são gratuitos?

Os modelos Kimi estão acessíveis sem custos através do site oficial e das aplicações móveis. O acesso via API utiliza uma estrutura de preços por token, começando em 0,60 dólares por milhão de tokens de entrada para o K2.5. Os pesos de código aberto no Hugging Face podem ser descarregados livremente para utilização comercial sob a Licença MIT Modificada.

É possível executar os modelos Kimi localmente?

O K2.5 e o K2 estão disponíveis no Hugging Face no formato block-fp8, permitindo a implementação via vLLM ou Transformers. O modelo completo de 1T exige recursos substanciais de GPU. O Kimi Linear é a opção mais adequada para execução local em hardware de nível de consumidor.

Qual é a diferença entre o K2 e o K2.5?

O K2.5 introduz capacidades multimodais nativas através do codificador MoonViT-3D e o modo Agent Swarm para processamento paralelo. Enquanto o K2 original era focado em texto com um contexto de 128K, o K2.5 processa nativamente imagens e documentos com uma janela de 256K tokens.

O que é a arquitetura MoE utilizada nos modelos?

A arquitetura Mixture-of-Experts (MoE) utiliza múltiplos especialistas (ex: 384 especialistas no K2.5) onde apenas uma pequena fração (ex: 32B de parâmetros ativos) é utilizada para processar cada token, garantindo alta eficiência.

O Kimi K2.5 supera o GPT-5.2?

O K2.5 rivaliza com o GPT-5.2 em testes de referência, superando-o em áreas como programação (LiveCodeBench) e eficiência de custo no processamento de agentes complexos.

Modelos Kimi: Potência Multimodal e Agentes de IA Avançados