Kimi AI: Modellguide og oversikt
Oppdag kraften i de nyeste MoE-modellene fra Moonshot AI, inkludert flaggskipet K2.5.
Prøv Kimi nå
Flaggskipmodellen Kimi K2.5

Kimi K2.5 is the most powerful model in its catalog, trained on approximately 15 trillion combined video and text tokens through continuous pre-training on top of the K2 base. Architecture uses 384 experts where 8 are activated per token, coupled with Multi-Latent Attention (MLA) and SwiGLU activation. The multimodal design integrates MoonViT-3D, a 400M-parameter visual feature extractor using NaViT packing for variable resolution image inputs.
Fire ulike driftsmoduser
K2.5 opererer i fire distinkte moduser som er optimalisert for ulike arbeidsflyter. Modusen K2.5 Instant leverer raske svar uten dyp resonnering for enkle forespørsler. K2.5 Thinking aktiverer logiske resonneringskjeder for komplekse problemer. K2.5 Agent muliggjør bruk av verktøy for autonom oppgaveløsning. K2.5 Agent Swarm koordinerer opptil 100 spesialiserte underagenter som jobber parallelt, noe som reduserer utførelsestiden med 4,5 ganger.
| Modus | Bruksområde | Hastighet | Resonneringsdybde |
|---|---|---|---|
| K2.5 Instant | Kjappe svar, enkle oppgaver | Raskest | Standard |
| K2.5 Thinking | Matematikk, logikk, analyse | Moderat | Dyp resonneringskjede |
| K2.5 Agent | Verktøybruk, koding, surfing | Oppgaveavhengig | Agentbasert resonnering |
| K2.5 Agent Swarm | Kompleks forskning, arbeidsflyter | Svært høy hastighet | Distribuert multi-agent |
Resultater i ytelsestester
K2.5 oppnår 96,1 % på AIME 2025 (GPT-5.2: 100 %), 98,0 % på MATH-500 og 87,6 % på GPQA-Diamond. Innen koding skårer den 83,1 % på LiveCodeBench v6, noe som er betydelig bedre enn Claude Opus 4.5 sine 64,0 %. Agent Swarm-modusen oppnådde 50,2 % på prøven Humanity’s Last Exam ved bruk av verktøy, og passerte dermed GPT-5.2 med en kostnad som var 76 % lavere. Bildefunksjonene inkluderer 92,3 % på OCRBench og 86,6 % på VideoMMMU.
Lette modeller for effektivitet

Kimi Linear
Kimi Linear ble lansert i oktober 2025 og bruker en kompakt 48B MoE-arkitektur med kun 3 milliarder aktive parametere per token. Den er designet for lokal bruk og miljøer med begrensede ressurser, men leverer likevel imponerende resultater i forhold til størrelsen. Modellen støtter 128K tokens og kjører effektivt på maskinvare for forbrukere, noe som gjør den ideell for mobilapper og situasjoner der lav latenstid er viktigere enn maksimal kapasitet.
Kimi-VL
Denne modellen ble utgitt i april 2025 og er en MoE-modell for bilde og språk med 16 milliarder parametere. Kimi-VL var selskapets første multimodale modell med åpen kildekode, utviklet for oppgaver som kombinerer bildeforståelse med tekstgenerering. Selv om K2.5 nå er det foretrukne valget for tunge arbeidsbelastninger, er Kimi-VL fortsatt nyttig for enklere bildeoppgaver der en modell med 1 billion parametere blir unødvendig stor.
Velg riktig Kimi modell

Valg av modell avhenger av dine spesifikke krav til ytelse, kostnad og fleksibilitet ved distribusjon. Følgende veiledning hjelper deg med å finne den optimale modellen for ditt behov.
- Bruk K2.5 via API eller nettsiden for generelle AI-oppgaver med maksimal kapasitet. Instant-modus håndterer enkle oppgaver effektivt, mens Thinking-modus løser komplekse problemer.
- Velg K2.5 Agent eller Agent Swarm for autonome arbeidsflyter og forskning. Swarm-systemet er spesielt godt egnet for oppgaver som krever parallell informasjonsinnhenting i flere trinn.
- Last ned K2.5 fra Hugging Face hvis du ønsker lokal distribusjon med full funksjonalitet. Denne kan kjøres via vLLM, SGLang eller Docker på egen infrastruktur.
- Benytt Kimi Linear for ressursbegrensede miljøer eller lokal kjøring på moderat maskinvare. Denne modellen gir god balanse mellom ytelse og krav til minne.
- Bruk Kimi-VL for enkle bildeoppgaver hvis budsjettet er begrenset. Den er et godt alternativ når de multimodale egenskapene til K2.5 blir for omfattende for oppgaven.
- Velg K2-Instruct-0905 for ren tekstbasert resonnering til en lavere pris. Dette er ideelt når du trenger kraften fra en stor MoE-modell, men ikke har behov for bildebehandling.
Ofte stilte spørsmål
Hvilken Kimi-modell er best?
Kimi K2.5 er den kraftigste modellen målt etter alle parametere, inkludert resonnering, koding og bildeforståelse. Den leder an i tester som AIME 2025 og OCRBench. For brukere som ikke trenger absolutt toppytelse, tilbyr Kimi Linear svært gode evner til en brøkdel av beregningskostnaden.
Er det gratis å bruke Kimi?
Alle modellene er tilgjengelige gratis gjennom den offisielle nettsiden og mobilapper. API-tilgang følger en prismodell per token, som for øyeblikket starter på 0,60 dollar per million inndata-tokens for K2.5 i 2026. Vektene for åpen kildekode kan lastes ned gratis for både privat og kommersiell bruk under en modifisert MIT-lisens.
Kan jeg kjøre Kimi lokalt?
Ja, både K2.5 og K2 er tilgjengelige på Hugging Face i formatet block-fp8. Disse kan distribueres via verktøy som Transformers eller Docker. Vær oppmerksom på at den fulle modellen krever betydelige GPU-ressurser, mens Kimi Linear er bedre egnet for lokal kjøring på vanlig maskinvare.
Hva er forskjellen på K2 og K2.5?
K2.5 introduserer innebygde multimodale evner med bildevisningen MoonViT-3D og modusen Agent Swarm. Mens K2 primært er en tekstmodell med et kontekstvindu på opptil 256K tokens, kan K2.5 håndtere bilder, video og dokumenter direkte i arkitekturen med forbedret nøyaktighet.
Støtter Kimi koding?
Ja, spesielt modellene K2-Instruct og K2.5 har svært høy skåre i kodingstester som HumanEval og LiveCodeBench.
Hva betyr MoE-arkitektur for Kimi?
Mixture-of-Experts betyr at bare en liten del av de totale parametrene (f.eks. 32B av 1T) aktiveres per token, noe som gir raskere og mer effektiv inferens.



