Kimi AI App Try Now

Modèles Kimi : Guide Complet de K2.5 et Gamme Moonshot AI

Découvrez la révolution de l'IA avec la gamme Kimi de Moonshot AI : performance multimodale, raisonnement complexe et agents intelligents.

Commencer maintenant

Présentation de la gamme Kimi

Présentation de la gamme Kimi

La plateforme Kimi de Moonshot AI propose une gamme impressionnante de modèles d’intelligence artificielle reposant sur une architecture de type mélange d’experts (Mixture-of-Experts) de 1 billion de paramètres. Le modèle phare Kimi K2.5, lancé en janvier 2026, offre des capacités multimodales natives, une coordination par essaim d’agents et des performances qui rivalisent avec GPT-5.2 ou Claude Opus 4.5. Que vous ayez besoin de réponses rapides pour des requêtes simples ou d'un raisonnement approfondi pour des problèmes complexes, la famille Kimi couvre tous les cas d'usage.

L'écosystème Kimi a évolué rapidement depuis le lancement de K1.5 en janvier 2025. Chaque version successive a étendu les capacités, passant du simple raisonnement textuel à une compréhension multimodale complète incluant la vidéo, les images et les documents. Tous les modèles de la série K2 partagent la même fondation MoE de 1T mais diffèrent par leurs données d'entraînement et leurs modes opérationnels. L'intégralité du modèle K2.5 est disponible en code source ouvert sous une licence MIT modifiée sur Hugging Face pour un déploiement auto-hébergé.

Modèle Date de sortie Paramètres Fenêtre de contexte Caractéristiques clés
Kimi K2.5 Janvier 2026 1T MoE (32B actifs) 256K tokens Multimodal natif, Agent Swarm, open-source
Kimi K2-Instruct-0905 Septembre 2025 1T MoE (32B actifs) 256K tokens Codage amélioré, contexte étendu
Kimi K2 Juillet 2025 1T MoE (32B actifs) 128K tokens Premier MoE 1T, base open-source
Kimi Linear Octobre 2025 48B MoE (3B actifs) 128K tokens Léger, inférence efficace
Kimi-VL Avril 2025 16B MoE (3B actifs) 128K tokens Vision-langage, multimodal compact
Kimi K1.5 Janvier 2025 Non communiqué 128K tokens Parité avec OpenAI o1

Performance du modèle phare Kimi K2.5

Performance du modèle phare Kimi K2.5

Le modèle K2.5 représente la solution la plus performante de la gamme, entraînée sur environ 15 billions de tokens mixtes incluant du texte et des visuels. Son architecture utilise 384 experts avec 8 experts activés par token, intégrant le mécanisme Multi-Latent Attention (MLA) et l'activation SwiGLU. La conception multimodale native intègre MoonViT-3D, un encodeur de vision de 400M de paramètres utilisant la technologie NaViT pour gérer des résolutions d'image variables.

Quatre modes de fonctionnement

Le système K2.5 fonctionne selon quatre modes distincts optimisés pour différents flux de travail. Le mode K2.5 Instant fournit des réponses rapides sans phase de réflexion pour les requêtes directes. K2.5 Thinking active un raisonnement par chaîne de pensée pour les problèmes logiques complexes. K2.5 Agent permet l'utilisation d'outils pour l'exécution de tâches autonomes. Enfin, K2.5 Agent Swarm coordonne jusqu'à 100 sous-agents spécialisés travaillant en parallèle, ce qui réduit le temps d'exécution par 4,5.

Mode Cas d'usage Vitesse Profondeur de raisonnement
K2.5 Instant Réponses rapides, tâches simples Très rapide Standard
K2.5 Thinking Mathématiques, logique, analyse Modérée Chaîne de pensée profonde
K2.5 Agent Utilisation d'outils, code, navigation Dépend de la tâche Raisonnement d'agent
K2.5 Agent Swarm Recherche complexe, flux multi-étapes Accélération 4,5x Multi-agents distribués

Résultats aux tests de référence

Le K2.5 atteint un score de 96,1 % sur AIME 2025 (contre 100 % pour GPT-5.2), 98,0 % sur MATH-500 et 87,6 % sur GPQA-Diamond. Dans le domaine de la programmation, il affiche 83,1 % sur LiveCodeBench v6, surpassant nettement les 64,0 % de Claude Opus 4.5. Le mode Agent Swarm a obtenu 50,2 % à l'examen Humanity's Last Exam avec outils, dépassant GPT-5.2 tout en réduisant les coûts de 76 %. Les capacités visuelles incluent 92,3 % sur OCRBench et 86,6 % sur VideoMMMU.

Modèle de base Kimi K2

Modèle de base Kimi K2

Lancé en juillet 2025, le modèle K2 a été le premier MoE de 1 billion de paramètres de Moonshot AI et a servi de fondation aux versions ultérieures. Publié sous licence MIT, il a établi l'architecture à 384 experts avec 32B de paramètres activés que le K2.5 utilise encore. La version initiale supportait un contexte de 128K tokens, étendu ensuite à 256K lors de la mise à jour Instruct de septembre 2025.

Le K2-Instruct-0905 a apporté des améliorations majeures en programmation et une fenêtre de contexte élargie. Cette mise à jour a obtenu 94,5 % au test HumanEval, démontrant de fortes capacités de génération de code. Cette variante Instruct reste disponible comme alternative textuelle pour les utilisateurs n'ayant pas besoin des fonctionnalités multimodales.

Modèles légers et efficaces

Modèles légers et efficaces

Kimi Linear

Lancé en octobre 2025, Kimi Linear utilise une architecture compacte de 48B paramètres avec seulement 3B paramètres activés par token. Ce modèle est conçu pour un déploiement en périphérie (edge computing) et dans des environnements aux ressources limitées. Il offre des performances surprenantes compte tenu de sa taille, supportant un contexte de 128K tokens. Il fonctionne efficacement sur du matériel grand public, ce qui le rend idéal pour les applications mobiles et les scénarios exigeant une faible latence.

Kimi-VL

Sorti en avril 2025, Kimi-VL est un modèle vision-langage de 16B paramètres. Il s'agissait du premier modèle multimodal open-source de Moonshot AI pour les tâches combinant compréhension d'image et génération de texte. Bien que surpassé par les capacités natives du K2.5 pour les charges de travail exigeantes, Kimi-VL reste utile pour des tâches de vision légères où un modèle de 1T serait excessif.

Comment choisir le bon modèle

Comment choisir le bon modèle

La sélection du modèle dépend de vos exigences spécifiques en matière de performance, de coût et de flexibilité de déploiement. Le guide suivant permet d'associer vos besoins au modèle optimal.

  • IA polyvalente avec capacité maximale : Utilisez K2.5 via l'API ou le site officiel. Le mode Instant traite les tâches simples, tandis que le mode Thinking gère le raisonnement complexe.
  • Flux de travail autonomes et recherche : Utilisez les modes K2.5 Agent ou Agent Swarm. Le système d'essaim excelle dans les tâches multi-étapes nécessitant une collecte d'informations parallèle.
  • Déploiement auto-hébergé complet : Téléchargez K2.5 depuis Hugging Face et déployez-le via vLLM, SGLang ou Docker.
  • Déploiement léger ou local : Utilisez Kimi Linear pour les environnements disposant de ressources limitées et de matériel modeste.
  • Tâches de vision simples avec budget limité : Utilisez Kimi-VL lorsque les capacités multimodales complètes du K2.5 dépassent vos besoins réels.
  • Raisonnement textuel à moindre coût : Utilisez K2-Instruct-0905 pour bénéficier de la puissance du MoE 1T sans les fonctionnalités de vision.

Foire aux questions

Quel est le meilleur modèle Kimi ?

Le Kimi K2.5 est le modèle le plus performant sur tous les indicateurs : raisonnement, programmation et vision. Il obtient 96,1 % sur AIME 2025 et domine sur OCRBench avec 92,3 %.

Les modèles Kimi sont-ils gratuits ?

En 2026, l'accès est gratuit via le portail web et les applications mobiles. L'accès API est payant dès 0,60 $ par million de tokens. Les poids open-source sont gratuits sous licence MIT modifiée.

Puis-je exécuter Kimi localement ?

Oui, les modèles K2.5 et K2 sont sur Hugging Face. Le déploiement local du modèle 1T demande des ressources GPU importantes, alors que Kimi Linear convient au matériel grand public.

Quelle est la différence entre K2 et K2.5 ?

Le K2.5 introduit des capacités multimodales natives (vision, vidéo) et le mode Agent Swarm (100 agents), tandis que le K2 original est essentiellement textuel avec 128K de contexte.

Quelle est la fenêtre de contexte du K2.5 ?

Le modèle Kimi K2.5 supporte une fenêtre de contexte étendue de 256K tokens, contre 128K pour le premier modèle K2.

Qu'est-ce que le mode Agent Swarm ?

Il s'agit d'un système de coordination permettant de faire travailler jusqu'à 100 sous-agents spécialisés en parallèle pour résoudre des tâches complexes 4,5 fois plus vite.

Quelles sont les performances de Kimi en programmation ?

Le K2.5 affiche un score de 83,1 % sur LiveCodeBench v6, surpassant nettement les 64,0 % de Claude Opus 4.5.

Où trouver les modèles open-source ?

L'intégralité du modèle K2.5 est disponible sur Hugging Face sous une licence MIT modifiée pour un déploiement auto-hébergé.

Quelle est l'architecture de Kimi ?

La gamme utilise une architecture Mixture-of-Experts (MoE) de 1 billion (1T) de paramètres, avec généralement 32B ou 8B de paramètres actifs selon le modèle.

Qu'est-ce que Kimi Linear ?

C'est une version légère (48B MoE) optimisée pour l'edge computing et une faible latence sur du matériel grand public.