Kimi AI App Try Now

API Kimi: Potência Multimodal e Janela de Contexto de 256K

Integre o modelo Kimi K2.5 com arquitetura de 1 trilhão de parâmetros e suporte nativo para texto, imagem e vídeo.

Começar Integração

Visão geral da API Kimi

Visão geral da API Kimi

A API Kimi oferece acesso ao modelo Kimi K2.5 da Moonshot AI, uma arquitetura MoE de 1 trilhão de parâmetros com capacidades multimodais nativas, janela de contexto de 256K tokens e funcionalidades de agente. A interface baseada em REST permite a integração em aplicações que exigem raciocínio avançado, compreensão visual, análise de documentos e fluxos de trabalho multiagente. O serviço está disponível através da plataforma oficial da Moonshot e de provedores terceirizados, incluindo OpenRouter, Together AI e NVIDIA NIM.

Para desenvolvedores familiarizados com o ecossistema da OpenAI, a migração é direta. A API mantém compatibilidade total com a estrutura do SDK da OpenAI, exigindo apenas alterações na URL base e na chave da API. A autenticação utiliza a autorização padrão via Bearer token. Os SDKs oficiais para Python e Node.js gerenciam as requisições, enquanto os pesos do modelo de código aberto no Hugging Face permitem a implementação em infraestrutura própria para equipas que exigem controlo total.

O diferencial desta API reside na combinação de uma janela de contexto de 256K, capacidades nativas de visão e o modo Agent Swarm com preços aproximadamente quatro vezes menores que o Claude Opus 4.5. Pipelines complexos de RAG tornam-se mais simples quando o modelo processa conjuntos inteiros de documentação numa única passagem, compreendendo simultaneamente imagens, gráficos e conteúdos de vídeo de forma nativa.

Recurso Detalhes
Modelo Atual Kimi K2.5 (kimi-k2.5)
Janela de Contexto 262.144 tokens (256K)
Tipos de Entrada Texto, imagens, vídeo, documentos
Autenticação Bearer token via cabeçalho Authorization
SDKs Python, Node.js (compatível com OpenAI)
Provedores Moonshot Official, OpenRouter, Together AI, NVIDIA NIM

Os pontos de extremidade da API espelham a estrutura da OpenAI para conclusões de chat, suportando respostas em JSON, saída por streaming e chamada de funções para a construção de fluxos de trabalho de agentes. O acesso ao Kimi através da API significa aproveitar todas as capacidades do K2.5, incluindo os quatro modos operacionais: Instant, Thinking, Agent e Agent Swarm.

  • Endpoints REST compatíveis com OpenAI reduzem a necessidade de refatoração ao trocar de provedor.
  • Respostas por streaming permitem atualizações progressivas na interface do utilizador durante a geração.
  • Suporte para chamada de funções facilita o uso de ferramentas e saídas estruturadas.
  • Entrada multimodal nativa aceita imagens e vídeos juntamente com texto.
  • Cache de contexto automático reduz os custos de entrada repetida em 75%.

Preços da API Kimi

Preços da API Kimi

Em 2026, o Kimi K2.5 oferece preços competitivos em múltiplos provedores, com o cache de contexto automático na API oficial a reduzir os custos de entrada para contextos repetidos significativamente.

Provedor Entrada (por 1M tokens) Saída (por 1M tokens) Entrada em Cache
Moonshot Official $0,60 $3,00 $0,15 (75% desconto)
OpenRouter $0,45 $2,20 Varia conforme o uso
Together AI $0,50 $2,80 Varia conforme o uso

Atualmente, estes valores posicionam o Kimi K2.5 como uma opção cerca de quatro vezes mais económica que o Claude Opus 4.5 para janelas de contexto equivalentes. O recurso de cache de contexto automático é ativado de forma transparente quando o mesmo prompt de sistema ou prefixo de documento é reutilizado, sem exigir alterações no código.

Limites de taxa e níveis

Limites de taxa e níveis

A API oficial utiliza um sistema de níveis baseado no valor acumulado de recarga da conta. Níveis mais elevados desbloqueiam uma maior capacidade de concorrência e taxas de requisição superiores para aplicações de grande escala.

Nível Recarga Acumulada Requisições Simultâneas Requisições por Minuto
Nível 1 $10 50 200
Nível 2 $100 100 500
Nível 3 $500 300 2.000
Nível 5 $3.000 1.000 10.000

Para aplicações que exigem limites superiores, estão disponíveis planos empresariais com limites de taxa personalizados através de contacto direto com a equipa de vendas da Moonshot AI. Os custos da API estão sujeitos a alterações conforme a evolução do mercado em 2026.

Uso da API multimodal

Uso da API multimodal

A arquitetura multimodal nativa do Kimi K2.5 aceita imagens e vídeos diretamente nas requisições da API. O codificador de visão MoonViT-3D processa entradas de resolução variável sem a necessidade de pré-processamento ou redimensionamento manual pelo cliente.

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Descreva este gráfico e extraia os dados."},
                {"type": "image_url", "image_url": {"url": "https://exemplo.com/grafico.png"}}
            ]
        }
    ]
)

As capacidades de visão registam pontuações elevadas em benchmarks como OCRBench (92,3%) e InfoVQA (92,6%). Isso torna o modelo particularmente eficiente em tarefas como compreensão de documentos e análise técnica de dados visuais. O suporte para vídeo é realizado através da passagem de múltiplos frames ou URLs de vídeo.

Métodos alternativos de acesso

Métodos alternativos de acesso

Além da API oficial, o Kimi K2.5 está acessível através de diversas plataformas de terceiros e opções de alojamento próprio para maior flexibilidade técnica.

  • OpenRouter oferece acesso agregado com faturação unificada entre múltiplos provedores de software.
  • Together AI disponibiliza infraestrutura otimizada com latência reduzida para inferência de alto desempenho.
  • NVIDIA NIM permite a implementação empresarial através da plataforma de microserviços de inferência da NVIDIA.
  • Hugging Face disponibiliza os pesos para implementação local em formato block-fp8 para gestão soberana.

A implementação própria via vLLM ou Docker exige recursos significativos de GPU devido ao tamanho do modelo de 1T de parâmetros. Versões otimizadas são atualizadas regularmente na comunidade de código aberto.