Kimi AI App Try Now

Kimi AI: Modellguide og oversikt

Oppdag kraften i de nyeste MoE-modellene fra Moonshot AI, inkludert flaggskipet K2.5.

Prøv Kimi nå

Oversikt over Kimi-modellene

Oversikt over Kimi-modellene

Moonshot AIs Kimi-plattform tilbyr et imponerende utvalg av AI-modeller bygget på en Mixture-of-Experts-arkitektur med 1 billion parametere. Flaggskipet Kimi K2.5, som ble lansert i januar 2026, leverer innebygde multimodale ferdigheter, Agent Swarm-koordinering og ytelse som konkurrerer med GPT-5.2 og Claude Opus 4.5. Enten du trenger raske svar på enkle spørsmål, dyp resonnering for komplekse problemer eller autonome arbeidsflyter, dekker Kimi-familien alle bruksområder.

Økosystemet til Kimi har utviklet seg raskt siden K1.5 ble lansert i januar 2025. Hver etterfølgende utgivelse har utvidet funksjonaliteten fra ren tekstforståelse til full multimodal forståelse av video, bilder og dokumenter. Alle modellene i K2-serien deler den samme fundamentale arkitekturen, men skiller seg fra hverandre gjennom treningsdata, funksjonssett og driftsmoduser. Hele K2.5-modellen er åpen kildekode under en modifisert MIT-lisens, tilgjengelig på Hugging Face for lokal distribusjon.

ModellLanseringsdatoParametereKontekstvinduViktige funksjoner
Kimi K2.5Januar 20261T MoE (32B aktive)256K tokensInnebygd multimodalitet, Agent Swarm, åpen kildekode
Kimi K2-Instruct-0905September 20251T MoE (32B aktive)256K tokensForbedret koding, utvidet kontekst
Kimi K2Juli 20251T MoE (32B aktive)128K tokensFørste 1T MoE, åpen kildekode-base
Kimi LinearOktober 202548B MoE (3B aktive)128K tokensLettvekt, effektiv inferens
Kimi-VLApril 202516B MoE (3B aktive)128K tokensVision-language, kompakt multimodalitet
Kimi K1.5Januar 2025Ikke oppgitt128K tokensResonnering på nivå med OpenAI o1

Flaggskipmodellen Kimi K2.5

Flaggskipmodellen Kimi K2.5

Kimi K2.5 is the most powerful model in its catalog, trained on approximately 15 trillion combined video and text tokens through continuous pre-training on top of the K2 base. Architecture uses 384 experts where 8 are activated per token, coupled with Multi-Latent Attention (MLA) and SwiGLU activation. The multimodal design integrates MoonViT-3D, a 400M-parameter visual feature extractor using NaViT packing for variable resolution image inputs.

Fire ulike driftsmoduser

K2.5 opererer i fire distinkte moduser som er optimalisert for ulike arbeidsflyter. Modusen K2.5 Instant leverer raske svar uten dyp resonnering for enkle forespørsler. K2.5 Thinking aktiverer logiske resonneringskjeder for komplekse problemer. K2.5 Agent muliggjør bruk av verktøy for autonom oppgaveløsning. K2.5 Agent Swarm koordinerer opptil 100 spesialiserte underagenter som jobber parallelt, noe som reduserer utførelsestiden med 4,5 ganger.

ModusBruksområdeHastighetResonneringsdybde
K2.5 InstantKjappe svar, enkle oppgaverRaskestStandard
K2.5 ThinkingMatematikk, logikk, analyseModeratDyp resonneringskjede
K2.5 AgentVerktøybruk, koding, surfingOppgaveavhengigAgentbasert resonnering
K2.5 Agent SwarmKompleks forskning, arbeidsflyterSvært høy hastighetDistribuert multi-agent

Resultater i ytelsestester

K2.5 oppnår 96,1 % på AIME 2025 (GPT-5.2: 100 %), 98,0 % på MATH-500 og 87,6 % på GPQA-Diamond. Innen koding skårer den 83,1 % på LiveCodeBench v6, noe som er betydelig bedre enn Claude Opus 4.5 sine 64,0 %. Agent Swarm-modusen oppnådde 50,2 % på prøven Humanity’s Last Exam ved bruk av verktøy, og passerte dermed GPT-5.2 med en kostnad som var 76 % lavere. Bildefunksjonene inkluderer 92,3 % på OCRBench og 86,6 % på VideoMMMU.

Basismodellen Kimi K2

Basismodellen Kimi K2

K2 ble lansert i juli 2025 som Moonshot AIs første MoE-modell med 1 billion parametere, og fungerer som fundamentet for alle senere utgivelser i K2-serien. Den ble gjort tilgjengelig som åpen kildekode under MIT-lisens og etablerte arkitekturen med 384 eksperter og 32 milliarder aktive parametere. Den opprinnelige utgivelsen støttet et kontekstvindu på 128K tokens, som senere ble utvidet til 256K med oppdateringen i september 2025.

Modellen K2-Instruct-0905 brakte med seg betydelige forbedringer innen koding og det utvidede kontekstvinduet. Denne oppdateringen skåret 94,5 % på HumanEval, noe som demonstrerer sterke evner innen kodegenerering. Instruct-varianten er fortsatt tilgjengelig som et rent tekstalternativ for brukere som ikke har behov for multimodale funksjoner.

Lette modeller for effektivitet

Lette modeller for effektivitet

Kimi Linear

Kimi Linear ble lansert i oktober 2025 og bruker en kompakt 48B MoE-arkitektur med kun 3 milliarder aktive parametere per token. Den er designet for lokal bruk og miljøer med begrensede ressurser, men leverer likevel imponerende resultater i forhold til størrelsen. Modellen støtter 128K tokens og kjører effektivt på maskinvare for forbrukere, noe som gjør den ideell for mobilapper og situasjoner der lav latenstid er viktigere enn maksimal kapasitet.

Kimi-VL

Denne modellen ble utgitt i april 2025 og er en MoE-modell for bilde og språk med 16 milliarder parametere. Kimi-VL var selskapets første multimodale modell med åpen kildekode, utviklet for oppgaver som kombinerer bildeforståelse med tekstgenerering. Selv om K2.5 nå er det foretrukne valget for tunge arbeidsbelastninger, er Kimi-VL fortsatt nyttig for enklere bildeoppgaver der en modell med 1 billion parametere blir unødvendig stor.

Velg riktig Kimi modell

Velg riktig Kimi modell

Valg av modell avhenger av dine spesifikke krav til ytelse, kostnad og fleksibilitet ved distribusjon. Følgende veiledning hjelper deg med å finne den optimale modellen for ditt behov.

  • Bruk K2.5 via API eller nettsiden for generelle AI-oppgaver med maksimal kapasitet. Instant-modus håndterer enkle oppgaver effektivt, mens Thinking-modus løser komplekse problemer.
  • Velg K2.5 Agent eller Agent Swarm for autonome arbeidsflyter og forskning. Swarm-systemet er spesielt godt egnet for oppgaver som krever parallell informasjonsinnhenting i flere trinn.
  • Last ned K2.5 fra Hugging Face hvis du ønsker lokal distribusjon med full funksjonalitet. Denne kan kjøres via vLLM, SGLang eller Docker på egen infrastruktur.
  • Benytt Kimi Linear for ressursbegrensede miljøer eller lokal kjøring på moderat maskinvare. Denne modellen gir god balanse mellom ytelse og krav til minne.
  • Bruk Kimi-VL for enkle bildeoppgaver hvis budsjettet er begrenset. Den er et godt alternativ når de multimodale egenskapene til K2.5 blir for omfattende for oppgaven.
  • Velg K2-Instruct-0905 for ren tekstbasert resonnering til en lavere pris. Dette er ideelt når du trenger kraften fra en stor MoE-modell, men ikke har behov for bildebehandling.

Ofte stilte spørsmål

Hvilken Kimi-modell er best?

Kimi K2.5 er den kraftigste modellen målt etter alle parametere, inkludert resonnering, koding og bildeforståelse. Den leder an i tester som AIME 2025 og OCRBench. For brukere som ikke trenger absolutt toppytelse, tilbyr Kimi Linear svært gode evner til en brøkdel av beregningskostnaden.

Er det gratis å bruke Kimi?

Alle modellene er tilgjengelige gratis gjennom den offisielle nettsiden og mobilapper. API-tilgang følger en prismodell per token, som for øyeblikket starter på 0,60 dollar per million inndata-tokens for K2.5 i 2026. Vektene for åpen kildekode kan lastes ned gratis for både privat og kommersiell bruk under en modifisert MIT-lisens.

Kan jeg kjøre Kimi lokalt?

Ja, både K2.5 og K2 er tilgjengelige på Hugging Face i formatet block-fp8. Disse kan distribueres via verktøy som Transformers eller Docker. Vær oppmerksom på at den fulle modellen krever betydelige GPU-ressurser, mens Kimi Linear er bedre egnet for lokal kjøring på vanlig maskinvare.

Hva er forskjellen på K2 og K2.5?

K2.5 introduserer innebygde multimodale evner med bildevisningen MoonViT-3D og modusen Agent Swarm. Mens K2 primært er en tekstmodell med et kontekstvindu på opptil 256K tokens, kan K2.5 håndtere bilder, video og dokumenter direkte i arkitekturen med forbedret nøyaktighet.

Støtter Kimi koding?

Ja, spesielt modellene K2-Instruct og K2.5 har svært høy skåre i kodingstester som HumanEval og LiveCodeBench.

Hva betyr MoE-arkitektur for Kimi?

Mixture-of-Experts betyr at bare en liten del av de totale parametrene (f.eks. 32B av 1T) aktiveres per token, noe som gir raskere og mer effektiv inferens.