Modelo base Kimi K2

Lançado em julho de 2025, o K2 foi o primeiro modelo MoE de 1 trilhão de parâmetros da Moonshot AI e serviu de base para todos os lançamentos subsequentes da série K2. Disponibilizado como código aberto sob a Licença MIT, estabeleceu a arquitetura de 384 especialistas com 32B de parâmetros ativos que o K2.5 herdou. O lançamento original suportava 128K tokens de contexto, sendo posteriormente estendido para 256K com a atualização Instruct de setembro de 2025.
O K2-Instruct-0905 trouxe melhorias significativas na geração de código e a janela de contexto expandida. Esta atualização obteve 94,5% no HumanEval, demonstrando fortes competências de programação. A variante Instruct permanece disponível como uma alternativa de apenas texto para utilizadores que não necessitam de funcionalidades multimodais.
Modelos de arquitetura leve

Kimi Linear
Lançado em outubro de 2025, o Kimi Linear utiliza uma arquitetura MoE compacta de 48B com apenas 3B de parâmetros ativos por token. Projetado para implementação em dispositivos locais e ambientes com recursos limitados, entrega um desempenho surpreendente em relação ao seu tamanho. O modelo suporta um contexto de 128K tokens e funciona de forma eficiente em hardware de consumo, sendo adequado para aplicações móveis e cenários de alto rendimento onde a latência é mais crítica que a capacidade máxima.
Kimi-VL
O Kimi-VL é um modelo de visão e linguagem MoE de 16B de parâmetros com 3B de parâmetros ativos. Foi o primeiro modelo multimodal de código aberto da Moonshot AI, projetado para tarefas que combinam a compreensão de imagem com a geração de texto. Embora tenha sido superado pelas capacidades multimodais nativas do K2.5 em cargas de trabalho exigentes, o Kimi-VL continua a ser valioso para tarefas de visão leves onde o modelo completo de 1T seria excessivo.
Como escolher o modelo Kimi ideal

A seleção do modelo depende dos seus requisitos específicos de capacidade, custo e flexibilidade de implementação. A lista seguinte ajuda a alinhar os casos de uso com a escolha ideal do modelo.
- IA de uso geral com capacidade máxima: utilize o K2.5 através da API ou do portal kimi.com.
- Fluxos de trabalho autónomos e investigação: utilize o modo K2.5 Agent ou Agent Swarm para tarefas complexas.
- Implementação em servidor próprio: descarregue o K2.5 do Hugging Face e utilize ferramentas como vLLM ou Docker.
- Implementação local ou em dispositivos móveis: escolha o Kimi Linear para ambientes com hardware modesto.
- Tarefas de visão simples com baixo orçamento: utilize o Kimi-VL quando as capacidades totais do K2.5 forem excessivas.
- Raciocínio de texto com custo reduzido: opte pelo K2-Instruct-0905 se não necessitar de processamento de imagem.



