Kimi AI App Try Now

Modelos de Kimi de Moonshot AI: Guía completa y selección

Explora el ecosistema de IA más potente de Moonshot AI, desde el ligero Kimi Linear hasta el revolucionario Kimi K2.5 con arquitectura de 1 billón de parámetros.

Prueba Kimi K2.5

Modelos de Kimi y guía de selección

Modelos de Kimi y guía de selección

La plataforma Kimi de Moonshot AI ofrece una impresionante gama de modelos de inteligencia artificial construidos sobre una arquitectura de mezcla de expertos (Mixture-of-Experts) de 1 billón de parámetros. El buque insignia Kimi K2.5, lanzado en enero de 2026, ofrece capacidades multimodales nativas, coordinación de Agent Swarm y un rendimiento en pruebas de referencia que compite con GPT-5.2 y Claude Opus 4.5. Ya sea que necesites respuestas rápidas para consultas sencillas, razonamiento profundo para problemas complejos o flujos de trabajo de agentes autónomos, la familia de modelos Kimi cubre cada caso de uso.

El ecosistema de Kimi ha evolucionado rápidamente desde el lanzamiento de K1.5 en enero de 2025. Cada versión posterior ha ampliado las capacidades desde el razonamiento basado solo en texto hasta una comprensión multimodal completa con video, imágenes y documentos. Todos los modelos de la serie K2 comparten la misma base de 1T MoE, pero difieren en datos de entrenamiento, conjuntos de funciones y modos operativos. El modelo K2.5 completo es de código abierto bajo una Licencia MIT Modificada, disponible en Hugging Face para despliegue local.

Modelo Fecha de lanzamiento Parámetros Ventana de contexto Funciones clave
Kimi K2.5 Enero 2026 1T MoE (32B activos) 256K tokens Multimodal nativo, Agent Swarm, código abierto
Kimi K2-Instruct-0905 Septiembre 2025 1T MoE (32B activos) 256K tokens Programación mejorada, contexto extendido
Kimi K2 Julio 2025 1T MoE (32B activos) 128K tokens Primer 1T MoE, base de código abierto
Kimi Linear Octubre 2025 48B MoE (3B activos) 128K tokens Ligero, inferencia eficiente
Kimi-VL Abril 2025 16B MoE (3B activos) 128K tokens Visión-lenguaje, multimodal compacto
Kimi K1.5 Enero 2025 No revelado 128K tokens Paridad de razonamiento con OpenAI o1

Modelo insignia Kimi K2.5

Modelo insignia Kimi K2.5

Kimi K2.5 representa el modelo más capaz de la línea, entrenado con aproximadamente 15 billones de tokens mixtos visuales y de texto mediante un preentrenamiento continuo sobre la base K2. La arquitectura utiliza 384 expertos con 8 activados por token, Multi-Latent Attention (MLA) y activación SwiGLU. El diseño multimodal nativo integra MoonViT-3D, un codificador de visión de 400M de parámetros que utiliza empaquetado NaViT para entradas de imagen de resolución variable.

Cuatro modos operativos

K2.5 opera en cuatro modos distintos, cada uno optimizado para diferentes flujos de trabajo. K2.5 Instant ofrece respuestas rápidas y sin procesamiento profundo para consultas directas. K2.5 Thinking activa el razonamiento de cadena de pensamiento para problemas complejos. K2.5 Agent permite el uso de herramientas por un solo agente para completar tareas autónomas. K2.5 Agent Swarm coordina hasta 100 subagentes especializados que trabajan en paralelo, reduciendo el tiempo de ejecución en 4,5 veces.

Modo Caso de uso Velocidad Profundidad de razonamiento
K2.5 Instant Respuestas rápidas, tareas simples La más rápida Estándar
K2.5 Thinking Matemáticas, lógica, análisis complejo Moderada Cadena de pensamiento profunda
K2.5 Agent Uso de herramientas, ejecución de código Depende de la tarea Razonamiento agéntico
K2.5 Agent Swarm Investigación compleja, flujos de trabajo 4,5 veces más rápido Multiagente distribuido

Rendimiento en pruebas técnicas

K2.5 alcanza un 96,1 % en AIME 2025 (GPT-5.2: 100 %), un 98,0 % en MATH-500 y un 87,6 % en GPQA-Diamond. En programación, obtiene un 83,1 % en LiveCodeBench v6, superando significativamente el 64,0 % de Claude Opus 4.5. El modo Agent Swarm logró un 50,2 % en Humanity's Last Exam con herramientas, superando el 45,5 % de GPT-5.2 con un costo un 76 % menor. Las capacidades de visión incluyen un 92,3 % en OCRBench y un 86,6 % en VideoMMMU.

Modelo base Kimi K2

Modelo base Kimi K2

Lanzado en julio de 2025, K2 fue el primer modelo MoE de 1 billón de parámetros de Moonshot AI y la base para todos los lanzamientos posteriores de la serie K2. Publicado como código abierto bajo la Licencia MIT, estableció la arquitectura de 384 expertos con 32B de parámetros activados que hereda K2.5. La versión original admitía 128K tokens de contexto, ampliados posteriormente a 256K con la actualización Instruct de septiembre de 2025.

K2-Instruct-0905, presentado en septiembre de 2025, aportó mejoras significativas en programación y la ventana de contexto ampliada de 256K. Esta actualización obtuvo un 94,5 % en HumanEval, demostrando sólidas capacidades de generación de código. La variante Instruct sigue disponible como una alternativa de solo texto para usuarios que no necesitan funciones multimodales.

Modelos de bajo consumo

Modelos de bajo consumo

Kimi Linear

Lanzado en octubre de 2025, Kimi Linear utiliza una arquitectura MoE compacta de 48B con solo 3B de parámetros activados por token. Diseñado para despliegues en el borde (edge) y entornos con recursos limitados, ofrece un rendimiento sorprendentemente capaz en relación con su tamaño. El modelo admite un contexto de 128K tokens y se ejecuta de manera eficiente en hardware de consumo, lo que lo hace adecuado para implementación local y aplicaciones móviles donde la latencia es prioridad.

Kimi-VL

Presentado en abril de 2025, Kimi-VL es un modelo de visión-lenguaje MoE de 16B de parámetros con 3B de parámetros activados. Fue el primer modelo multimodal de código abierto de Moonshot AI, diseñado para tareas que combinan comprensión de imágenes con generación de texto. Aunque ha sido superado por las capacidades nativas de K2.5 para cargas de trabajo exigentes, Kimi-VL sigue siendo valioso para tareas de visión ligeras donde el modelo de 1T sería excesivo.

Cómo elegir el modelo adecuado

Cómo elegir el modelo adecuado

La selección del modelo depende de tus requisitos específicos de capacidad, costo y flexibilidad de despliegue. La siguiente guía ayuda a emparejar los casos de uso con la elección de modelo óptima.

  • IA de propósito general con máxima capacidad: utiliza K2.5 a través de la API o la aplicación web. El modo Instant gestiona tareas simples con eficiencia, mientras que el modo Thinking aborda razonamientos complejos.
  • Flujos de trabajo autónomos e investigación: emplea K2.5 Agent o el modo Agent Swarm. El sistema de enjambre destaca en tareas de varios pasos que requieren recopilación de información en paralelo.
  • Despliegue local con funciones completas: descarga K2.5 desde Hugging Face y utiliza herramientas como vLLM, SGLang o Docker para su implementación.
  • Despliegue ligero o en el borde: usa Kimi Linear para entornos con recursos limitados que requieran una inteligencia artificial capaz en hardware modesto.
  • Tareas de visión sencillas con bajo presupuesto: elige Kimi-VL cuando las capacidades multimodales completas de K2.5 excedan tus necesidades actuales.
  • Razonamiento de solo texto a menor costo: opta por K2-Instruct-0905 si no necesitas capacidades de visión pero requieres la potencia de razonamiento de un modelo 1T MoE.

Preguntas frecuentes

¿Cuál es el mejor modelo de Kimi?

Kimi K2.5 es el modelo más capaz en todas las métricas: razonamiento, programación, visión y tareas agénticas. Obtiene un 96,1 % en AIME 2025, un 83,1 % en LiveCodeBench y lidera en OCRBench con un 92,3 %.

¿Son gratuitos los modelos de Kimi?

Actualmente, todos los modelos de Kimi son accesibles de forma gratuita a través de su sitio web y aplicaciones móviles. El acceso a la API utiliza un sistema de pago por uso, y los pesos en Hugging Face son gratuitos bajo Licencia MIT Modificada.

¿Puedo ejecutar Kimi localmente?

Sí, K2.5 y K2 están disponibles en Hugging Face en formato block-fp8. El modelo completo de 1T requiere recursos sustanciales de GPU, mientras que Kimi Linear es ideal para hardware de consumo.

¿Qué diferencia hay entre K2 y K2.5?

K2.5 añade capacidades multimodales nativas con el codificador MoonViT-3D, el modo Agent Swarm para hasta 100 subagentes paralelos y mejoras significativas en rendimiento frente a los 128K del K2 original.

¿Qué es el modo Agent Swarm en Kimi K2.5?

Es una función que coordina hasta 100 subagentes especializados que trabajan en paralelo, reduciendo el tiempo de ejecución en 4,5 veces para tareas de investigación complejas.

¿Qué modelo de Kimi es mejor para programar?

Kimi K2.5 es el líder con un 83,1 % en LiveCodeBench v6, aunque K2-Instruct-0905 también ofrece un rendimiento sólido con un 94,5 % en HumanEval.

¿Cuál es la ventana de contexto de Kimi K2.5?

Kimi K2.5 admite una ventana de contexto ampliada de hasta 256K tokens.