Kimi AI App Try Now

Maîtrisez l'API Kimi : Puissance Multimodale et Contextuelle

Déployez Kimi K2.5 avec une fenêtre de 256K tokens et une compatibilité totale OpenAI pour vos projets les plus ambitieux.

Commencer maintenant

Premiers pas avec l'API

Premiers pas avec l'API

L'inscription ne prend que quelques minutes. Il suffit de se rendre sur platform.moonshot.ai, de créer un compte avec une vérification par courriel et d'accéder à la section des clés API. La plateforme propose une documentation exhaustive avec des exemples de code couvrant les schémas d'intégration les plus courants.

  1. Inscrivez-vous sur platform.moonshot.ai et validez votre adresse électronique.
  2. Accédez à la section API Keys dans le tableau de bord des développeurs.
  3. Générez votre première clé API et conservez-la en lieu sûr, car elle ne pourra plus être consultée après sa création.
  4. Installez le SDK Python d'OpenAI ou utilisez directement cURL pour vos requêtes.
from openai import OpenAI

client = OpenAI(
    api_key="votre_cle_api_moonshot",
    base_url="https://api.moonshot.cn/v1"
)

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "system", "content": "Vous êtes un assistant utile."},
        {"role": "user", "content": "Expliquez l'architecture MoE."}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

Ce code fonctionne de manière identique aux appels API d'OpenAI. Le passage des modèles GPT à Kimi requiert uniquement la modification des paramètres base_url et api_key. La gestion des erreurs existante, la logique de répétition des tentatives, les implémentations de streaming et l'analyse des réponses sont transférables sans aucune modification supplémentaire.

Tarification de l'API

Tarification de l'API

Kimi K2.5 propose des tarifs compétitifs via plusieurs fournisseurs. La mise en cache automatique du contexte sur l'API officielle permet de réduire considérablement les coûts d'entrée pour les contextes redondants.

Fournisseur Entrée (par 1M tokens) Sortie (par 1M tokens) Entrée en cache
Moonshot Official 0,60 $ 3,00 $ 0,15 $ (-75 %)
OpenRouter 0,45 $ 2,20 $ Variable
Together AI 0,50 $ 2,80 $ Variable

Ces tarifs positionnent Kimi K2.5 comme une solution environ quatre fois moins coûteuse que Claude Opus 4,5 pour des capacités et des longueurs de contexte équivalentes. La fonctionnalité de mise en cache automatique s'active de manière transparente dès qu'une instruction système ou un préfixe de document identique est réutilisé. Actuellement en 2026, ces prix font de Kimi l'un des modèles les plus abordables du marché pour le traitement massif de données.

Limites de débit et niveaux

Limites de débit et niveaux

L'API officielle utilise un système de niveaux basé sur le montant cumulé des recharges du compte. Des niveaux plus élevés débloquent une plus grande simultanéité et des taux de requêtes accrus.

Niveau Recharge cumulée Requêtes simultanées Requêtes par minute
Niveau 1 10 $ 50 200
Niveau 2 100 $ 100 500
Niveau 3 500 $ 300 2 000
Niveau 5 3 000 $ 1 000 10 000

Pour les applications nécessitant des limites supérieures, des plans d'entreprise avec des quotas personnalisés sont disponibles sur demande auprès de l'équipe commerciale de Moonshot AI. Les limites peuvent évoluer pour s'adapter à la croissance des besoins des utilisateurs.

Utilisation de l'API multimodale

Utilisation de l'API multimodale

L'architecture multimodale native de Kimi K2.5 accepte les images et les vidéos directement dans les requêtes de l'API. L'encodeur de vision MoonViT-3D traite les entrées de résolutions variables sans nécessiter de prétraitement ou de redimensionnement côté client.


response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Décrivez ce graphique et extrayez les données."},
                {"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
            ]
        }
    ]
)

Les capacités de vision atteignent des scores de 92,3 % sur OCRBench et 92,6 % sur InfoVQA. Ces résultats rendent Kimi K2.5 particulièrement performant pour la compréhension de documents complexes, l'analyse graphique et l'extraction de données à partir d'images. Les entrées vidéo sont gérées par la transmission de plusieurs images clés ou d'URLs vidéo.

Méthodes d'accès alternatives

Méthodes d'accès alternatives

Au-delà de l'API officielle, Kimi K2.5 est accessible via plusieurs plateformes tierces et options d'auto-hébergement pour plus de flexibilité.

  • OpenRouter : propose un accès agrégé avec une facturation unifiée pour plusieurs modèles, idéal pour les applications nécessitant un routage de secours.
  • Together AI : offre une infrastructure d'inférence optimisée avec des prix compétitifs et une faible latence de service.
  • NVIDIA NIM : permet un déploiement en entreprise via la plateforme de microservices d'inférence de NVIDIA.
  • Auto-hébergement : les poids sont disponibles sur Hugging Face (moonshotai/Kimi-K2.5) au format block-fp8 pour un déploiement avec vLLM ou Docker.

Foire aux questions

L'API Kimi est-elle compatible avec OpenAI ?

Elle est entièrement compatible. Il suffit de modifier le champ base_url pour pointer vers api.moonshot.cn/v1 et d'utiliser votre clé secrète Moonshot. Les fonctionnalités telles que les appels de fonctions, le streaming et les sorties structurées fonctionnent à l'identique.

Quelle est la fenêtre de contexte maximale ?

Kimi K2.5 supporte jusqu'à 262 144 tokens par requête. Cette capacité permet de traiter des bases de code entières, des dossiers documentaires volumineux et des historiques de conversation étendus.

Comment fonctionne la mise en cache ?

La mise en cache automatique s'active lorsque le même préfixe, comme une instruction système ou un document de référence, apparaît dans des requêtes consécutives. Les tokens mis en cache sont facturés 0,15 $ par million au lieu de 0,60 $.

Puis-je héberger le modèle moi-même ?

Le modèle Kimi K2.5 est ouvert sous une licence MIT modifiée. Vous pouvez télécharger les poids sur Hugging Face et les déployer en utilisant des outils comme vLLM ou SGLang.

Kimi supporte-t-il les images et les vidéos ?

Oui, il intègre une architecture multimodale native (MoonViT-3D) capable de traiter images et vidéos directement via l'API.

Quels sont les langages de programmation supportés ?

Tous les langages supportant les appels REST ou les SDK compatibles OpenAI (Python, Node.js, PHP, Go, etc.) peuvent utiliser l'API Kimi.

Quelle est la différence de coût avec Claude Opus ?

Le tarif de Kimi K2.5 est environ quatre fois inférieur à celui de Claude Opus 4,5 pour des capacités similaires, notamment grâce à la mise en cache.