Kimi Modelle: K2.5, K2 & Linear im Überblick

Übersicht über die Kimi Modelle

Die Kimi Plattform von Moonshot AI bietet eine beeindruckende Auswahl an KI-Modellen, die auf einer Mixture-of-Experts-Architektur mit 1 Billion Parametern basieren. Das Flaggschiff Kimi K2.5, das im Januar 2026 veröffentlicht wurde, liefert native multimodale Fähigkeiten, Agent Swarm Koordination und eine Benchmark-Leistung, die mit GPT-5.2 und Claude Opus 4.5 конкуriert. Ob Sie schnelle Antworten für einfache Anfragen, tiefgreifende logische Analysen für komplexe Probleme oder autonome Agenten-Workflows benötigen, die Kimi Modellfamilie deckt jeden Anwendungsfall ab.

Das Ökosystem von Kimi hat sich seit dem Start von K1.5 im Januar 2025 rasant entwickelt. Jede nachfolgende Veröffentlichung hat die Funktionen von reiner Textverarbeitung auf ein vollständiges multimodales Verständnis von Videos, Bildern und Dokumenten erweitert. Alle Modelle der K2-Serie teilen die gleiche Basis von 1 Billion Parametern (1T MoE), unterscheiden sich jedoch in den Trainingsdaten, dem Funktionsumfang und den Betriebsmodi. Das gesamte K2.5 Modell ist unter einer modifizierten MIT-Lizenz quelloffen und auf Hugging Face für die selbst gehostete Bereitstellung verfügbar.

Modell	Veröffentlichungsdatum	Parameter	Kontextfenster	Hauptmerkmale
Kimi K2.5	Januar 2026	1T MoE (32B aktiv)	256K Token	Nativ multimodal, Agent Swarm, Open-Source
Kimi K2-Instruct-0905	September 2025	1T MoE (32B aktiv)	256K Token	Verbesserte Programmierung, erweiterter Kontext
Kimi K2	Juli 2025	1T MoE (32B aktiv)	128K Token	Erstes 1T MoE, quelloffene Basis
Kimi Linear	Oktober 2025	48B MoE (3B aktiv)	128K Token	Leichtgewichtig, effiziente Inferenz
Kimi-VL	April 2025	16B MoE (3B aktiv)	128K Token	Vision-Language, kompakte Multimodalität
Kimi K1.5	Januar 2025	Nicht offengelegt	128K Token	Logik auf Augenhöhe mit OpenAI o1

Das Flaggschiffmodell Kimi K2.5

Kimi K2.5 repräsentiert das leistungsfähigste Modell im Sortiment. Es wurde auf etwa 15 Billionen gemischten visuellen und textbasierten Token durch kontinuierliches Vortraining auf der K2-Basis trainiert. Die Architektur nutzt 384 Experten, von denen 8 pro Token aktiviert werden, sowie Multi-Latent Attention (MLA) und SwiGLU-Aktivierung. Das native multimodale Design integriert MoonViT-3D, einen Bild-Encoder mit 400 Millionen Parametern, der NaViT-Packing für Bildeingaben mit variabler Auflösung verwendet.

Vier verschiedene Betriebsmodi

K2.5 arbeitet in vier verschiedenen Modi, die jeweils für unterschiedliche Arbeitsabläufe optimiert sind. K2.5 Instant liefert schnelle Antworten ohne tiefe Rechenprozesse für einfache Anfragen. K2.5 Thinking aktiviert eine logische Kette von Gedankengängen für komplexe Probleme. K2.5 Agent ermöglicht die Nutzung von Werkzeugen durch einen einzelnen Agenten zur autonomen Aufgabenerledigung. K2.5 Agent Swarm koordiniert bis zu 100 spezialisierte Unteragenten, die parallel arbeiten und die Ausführungszeit um das 4,5-fache verkürzen.

Modus	Anwendungsfall	Geschwindigkeit	Logik Tiefe
K2.5 Instant	Schnelle Antworten, einfache Aufgaben	Am schnellsten	Standard
K2.5 Thinking	Mathematik, Logik, komplexe Analyse	Moderat	Tiefe Gedankenkette
K2.5 Agent	Werkzeugnutzung, Programmierung, Browsing	Aufgabenabhängig	Agentische Logik
K2.5 Agent Swarm	Komplexe Forschung, mehrstufige Prozesse	4,5x schneller als Einzelagent	Verteilte Multi-Agenten

Leistung in Benchmarks

K2.5 erreicht 96,1% bei AIME 2025 (GPT-5.2: 100%), 98,0% bei MATH-500 und 87,6% bei GPQA-Diamond. Im Bereich Programmierung erzielt das Modell 83,1% bei LiveCodeBench v6 und übertrifft damit deutlich die 64,0% von Claude Opus 4.5. Der Agent Swarm Modus erreichte 50,2% bei Humanity's Last Exam unter Einsatz von Werkzeugen und übertraf damit GPT-5.2 mit 45,5% bei gleichzeitig 76% geringeren Kosten. Die visuellen Fähigkeiten umfassen 92,3% bei OCRBench und 86,6% bei VideoMMMU.

Das Basismodell Kimi K2

K2 wurde im Juli 2025 veröffentlicht und war das erste Modell von Moonshot AI mit 1 Billion Parametern sowie die Grundlage für alle nachfolgenden Veröffentlichungen der K2-Serie. Es wurde unter der MIT-Lizenz als Open-Source-Software bereitgestellt und etablierte die Architektur mit 384 Experten und 32 Milliarden aktiven Parametern, die auch K2.5 nutzt. Die ursprüngliche Version unterstützte ein Kontextfenster von 128K Token, das mit dem Instruct-Update im September 2025 auf 256K erweitert wurde.

K2-Instruct-0905 brachte erhebliche Verbesserungen bei der Code-Generierung und das erweiterte Kontextfenster von 256K Token mit sich. Dieses Update erreichte 94,5% bei HumanEval, was die starke Fähigkeit zur Programmierung unterstreicht. Die Instruct-Variante bleibt als reine Textalternative für Anwender verfügbar, die keine multimodalen Funktionen benötigen.

Leichtgewichtige Modelle

Kimi Linear

Das im Oktober 2025 eingeführte Kimi Linear nutzt eine kompakte 48B MoE-Architektur mit nur 3 Milliarden aktivierten Parametern pro Token. Es wurde für den Einsatz auf Endgeräten und in Umgebungen mit begrenzten Ressourcen entwickelt und liefert eine überraschend starke Leistung im Verhältnis zu seiner Größe. Das Modell unterstützt ein Kontextfenster von 128K Token und läuft effizient auf Hardware für Endverbraucher. Damit eignet es sich hervorragend für lokale Installationen, mobile Anwendungen und Szenarien mit hohem Durchsatz, bei denen eine geringe Latenz wichtiger ist als maximale Kapazität.

Kimi-VL

Kimi-VL wurde im April 2025 veröffentlicht und ist ein Vision-Language-Modell mit 16 Milliarden Parametern und 3 Milliarden aktiven Parametern. Es war das erste quelloffene multimodale Modell von Moonshot AI, das speziell für Aufgaben entwickelt wurde, die Bildverständnis mit Textgenerierung kombinieren. Obwohl es für anspruchsvolle Aufgaben durch die nativen Fähigkeiten von K2.5 abgelöst wurde, bleibt Kimi-VL wertvoll für einfache Bildverarbeitungsaufgaben, bei denen das große 1T-Modell nicht wirtschaftlich wäre.

Das Logikmodell Kimi K1.5

K1.5 wurde im Januar 2025 veröffentlicht und markierte den Einstieg von Moonshot AI in den Bereich der fortgeschrittenen Logikmodelle. Es erreichte eine beachtliche Leistung bei Benchmarks für Mathematik und Programmierung und führte auf Reinforcement Learning basierende Denkprozesse auf der Kimi Plattform ein. Obwohl die genaue Anzahl der Parameter nie bekannt gegeben wurde, bewies K1.5, dass Moonshot AI in der Lage ist, an der Spitze der KI-Entwicklung mitzuspielen.

K1.5 konzentrierte sich ausschließlich auf textbasierte Logik ohne multimodale Funktionen. Die Veröffentlichung etablierte das Unternehmen als ernsthaften Konkurrenten im Bereich der logischen Sprachmodelle und legte den Grundstein für die leistungsfähigere K2-Serie. Anwender, die noch K1.5 nutzen, sollten auf K2.5 aktualisieren, da dieses Modell K1.5 in jedem Benchmark übertrifft und zusätzlich multimodale sowie agentische Funktionen bietet.

Wahl des richtigen Kimi Modells

Die Auswahl des Modells hängt von Ihren spezifischen Anforderungen an die Leistungsfähigkeit, die Kosten und die Flexibilität bei der Bereitstellung ab. Die folgende Übersicht hilft dabei, den optimalen Typ für verschiedene Anwendungsfälle zu finden.

Benötigen Sie eine vielseitige KI mit maximaler Leistung, nutzen Sie K2.5 über die API oder die offizielle Website. Der Instant-Modus erledigt einfache Aufgaben effizient, während der Thinking-Modus komplexe Probleme löst.
Verwenden Sie für autonome Arbeitsabläufe und Forschung den K2.5 Agent oder den Agent Swarm Modus. Das Swarm-System eignet sich hervorragend für mehrstufige Aufgaben, die eine parallele Informationsbeschaffung erfordern.
Wählen Sie für eine selbst gehostete Bereitstellung mit vollem Funktionsumfang den Download von K2.5 über Hugging Face und nutzen Sie zur Installation vLLM, SGLang oder Docker.
Nutzen Sie Kimi Linear für lokale Installationen oder mobile Anwendungen. Das Modell bietet eine fähige KI auf moderater Hardware bei begrenzten Ressourcen.
Verwenden Sie Kimi-VL für einfache Bildverarbeitungsaufgaben bei geringem Budget. Dies ist ideal, wenn die vollständigen multimodalen Kapazitäten von K2.5 nicht erforderlich sind.
Wählen Sie K2-Instruct-0905 für reine Textaufgaben zu geringeren Kosten. Damit erhalten Sie die volle Rechenleistung des 1T-Modells ohne die zusätzlichen Kosten für Bilderkennung.

Häufig gestellte Fragen

Welches Kimi Modell ist das beste?

Kimi K2.5 ist das leistungsfähigste Modell in allen Bereichen: Logik, Programmierung, Bilderkennung und autonome Aufgaben. Es führt mit 96,1% bei AIME 2025 und 92,3% bei OCRBench.

Sind die Kimi Modelle kostenlos?

Derzeit sind alle Kimi Modelle über die Website und mobile Anwendungen kostenlos zugänglich. Der API-Zugriff erfolgt über eine nutzungsbasierte Abrechnung, die im Jahr 2026 für K2.5 bei 0,60 US-Dollar pro Million Eingabe-Token beginnt. Die Gewichte auf Hugging Face können kostenlos heruntergeladen und unter der modifizierten MIT-Lizenz auch kommerziell genutzt werden.

Kann ich Kimi Modelle lokal betreiben?

Sowohl K2.5 als auch K2 sind auf Hugging Face im block-fp8-Format verfügbar und lassen sich über vLLM oder Transformers bereitstellen. Das vollständige 1T-Modell erfordert jedoch erhebliche GPU-Ressourcen. Für die lokale Nutzung auf Hardware für Endverbraucher ist Kimi Linear mit 3 Milliarden aktiven Parametern wesentlich besser geeignet.

Was ist der Unterschied zwischen K2 und K2.5?

K2.5 bietet zusätzlich native multimodale Funktionen durch den MoonViT-3D Vision-Encoder sowie den Agent Swarm Modus für parallele Aufgaben. Während die K2-Basis ein reines Textmodell mit einem Kontext von maximal 256K Token ist, kann K2.5 Bilder, Videos und Dokumente nativ verarbeiten und liefert deutlich bessere Ergebnisse in allen Benchmarks.

Wofür eignet sich Kimi Linear?

Es ist ideal für Umgebungen mit begrenzten Ressourcen, wie lokale Installationen oder mobile Apps, wo geringe Latenz wichtig ist.

Unterstützt Kimi K2.5 OCR?

Ja, K2.5 hat hervorragende visuelle Fähigkeiten und erreicht 92,3% im OCRBench Benchmark.

Ist Kimi K2.5 Open-Source?

Ja, das gesamte K2.5 Modell ist unter einer modifizierten MIT-Lizenz auf Hugging Face verfügbar.

Was ist der Agent Swarm Modus?

Dieser Modus koordiniert bis zu 100 spezialisierte Unteragenten parallel, was die Bearbeitung komplexer Forschungsaufgaben um das 4,5-fache beschleunigt.

Kimi Modelle im Vergleich