Présentation de l'API Kimi

L'API Kimi offre un accès au modèle Kimi K2.5 de Moonshot AI, une architecture de type mélange d'experts (MoE) comptant 1 000 milliards de paramètres. Ce modèle intègre des capacités multimodales natives, une fenêtre de contexte de 256K tokens et des fonctions agenciques avancées. L'interface REST permet une intégration fluide dans des applications nécessitant un raisonnement complexe, une compréhension visuelle, l'analyse de documents ou des flux de travail multi-agents. Le service est disponible via la plateforme officielle Moonshot ainsi que par des fournisseurs tiers tels que OpenRouter, Together AI et NVIDIA NIM.
Pour les développeurs familiers avec l'écosystème OpenAI, la migration est immédiate. L'API maintient une compatibilité totale avec la structure du SDK OpenAI, ne nécessitant que le changement de l'URL de base et de la clé API. L'authentification utilise le protocole standard Bearer token. Les SDK officiels pour Python et Node.js gèrent les requêtes, tandis que la mise à disposition des poids du modèle sur Hugging Face permet un déploiement auto-hébergé pour les équipes souhaitant un contrôle total de leur infrastructure.
Cette API se distingue par la combinaison d'une fenêtre de contexte de 256K, de capacités de vision natives et d'un mode Agent Swarm, le tout à un tarif environ quatre fois inférieur à celui de Claude Opus 4,5. Les pipelines RAG complexes deviennent plus simples à gérer lorsque le modèle peut traiter des ensembles complets de documentation en une seule passe, tout en comprenant nativement les images, les graphiques et les contenus vidéo.
| Fonctionnalité | Détails |
|---|---|
| Modèle actuel | Kimi K2.5 (kimi-k2.5) |
| Fenêtre de contexte | 262 144 tokens (256K) |
| Types d'entrées | Texte, images, vidéo, documents |
| Authentification | Clé Bearer via l'en-tête Authorization |
| SDK disponibles | Python, Node.js (compatible OpenAI) |
| Fournisseurs | Moonshot Official, OpenRouter, Together AI, NVIDIA NIM |
Les points de terminaison de l'API reflètent la structure de discussion d'OpenAI, prenant en charge les réponses JSON, le flux de données en continu (streaming) et l'appel de fonctions pour la création de flux agenciques. L'accès à Kimi par l'intermédiaire de l'API permet d'exploiter toutes les capacités de K2.5, y compris ses quatre modes opérationnels : Instant, Thinking, Agent et Agent Swarm.
- Les points de terminaison REST compatibles OpenAI limitent la réécriture du code lors du changement de fournisseur.
- Les réponses en streaming permettent des mises à jour progressives de l'interface utilisateur pendant la génération.
- La prise en charge des appels de fonctions facilite l'utilisation d'outils et la production de sorties structurées.
- L'entrée multimodale native accepte les images et les vidéos aux côtés du texte.
- La mise en cache automatique du contexte réduit les coûts des entrées répétées de 75 %.





