Kimi मॉडल्स का परिचय

Moonshot AI का Kimi प्लेटफॉर्म 1 ट्रिलियन पैरामीटर वाले Mixture-of-Experts (MoE) आर्किटेक्चर पर आधारित AI मॉडल्स की एक प्रभावशाली श्रृंखला पेश करता है। जनवरी 2026 में जारी किया गया प्रमुख Kimi K2.5 मॉडल, नेटिव मल्टीमोडल क्षमताएं, Agent Swarm समन्वय और बेंचमार्क प्रदर्शन प्रदान करता है जो GPT-5.2 और Claude Opus 4.5 को टक्कर देता है। चाहे आपको साधारण प्रश्नों के लिए तेज़ जवाब चाहिए हों, कठिन समस्याओं के लिए गहरी तर्कशक्ति की आवश्यकता हो या स्वायत्त एजेंट वर्कफ़्लो की, Kimi मॉडल परिवार हर ज़रूरत को पूरा करता है।
जनवरी 2025 में K1.5 के लॉन्च के बाद से Kimi इकोसिस्टम तेज़ी से विकसित हुआ है। इसके बाद के प्रत्येक रिलीज़ ने केवल टेक्स्ट-आधारित तर्क से लेकर वीडियो, छवियों और दस्तावेज़ों के साथ पूर्ण मल्टीमोडल समझ तक अपनी क्षमताओं का विस्तार किया है। सभी K2-सीरीज़ मॉडल एक ही 1T MoE आधार साझा करते हैं लेकिन डेटा प्रशिक्षण, सुविधाओं और परिचालन मोड के मामले में भिन्न हैं। पूरा K2.5 मॉडल एक संशोधित MIT लाइसेंस के तहत ओपन-सोर्स है और सेल्फ-होस्टेड परिनियोजन के लिए Hugging Face पर उपलब्ध है।
| मॉडल | रिलीज़ की तारीख | पैरामीटर्स | कॉन्टेक्स्ट विंडो | प्रमुख विशेषताएं |
|---|---|---|---|---|
| Kimi K2.5 | जनवरी 2026 | 1T MoE (32B सक्रिय) | 256K टोकन | नेटिव मल्टीमोडल, Agent Swarm, ओपन-सोर्स |
| Kimi K2-Instruct-0905 | सितंबर 2025 | 1T MoE (32B सक्रिय) | 256K टोकन | बेहतर कोडिंग, विस्तारित कॉन्टेक्स्ट |
| Kimi K2 | जुलाई 2025 | 1T MoE (32B सक्रिय) | 128K टोकन | पहला 1T MoE, ओपन-सोर्स बेस |
| Kimi Linear | अक्टूबर 2025 | 48B MoE (3B सक्रिय) | 128K टोकन | हल्का, कुशल अनुमान |
| Kimi-VL | अप्रैल 2025 | 16B MoE (3B सक्रिय) | 128K टोकन | विज़न-लैंग्वेज, कॉम्पैक्ट मल्टीमोडल |
| Kimi K1.5 | जनवरी 2025 | अघोषित | 128K टोकन | OpenAI o1 के समान तर्कशक्ति |
Kimi K2.5 फ्लैगशिप मॉडल

Kimi K2.5 इस लाइनअप का सबसे सक्षम मॉडल है जिसे K2 बेस के निरंतर प्री-ट्रेनिंग के माध्यम से लगभग 15 ट्रिलियन मिश्रित विजुअल और टेक्स्ट टोकन पर प्रशिक्षित किया गया है। इसका आर्किटेक्चर 384 विशेषज्ञों का उपयोग करता है जिसमें प्रति टोकन 8 विशेषज्ञ सक्रिय होते हैं और इसमें Multi-Latent Attention (MLA) तथा SwiGLU एक्टिवेशन शामिल है। इसका नेटिव मल्टीमोडल डिज़ाइन MoonViT-3D को एकीकृत करता है जो परिवर्तनीय-रिज़ॉल्यूशन वाली छवियों के लिए NaViT पैकिंग का उपयोग करने वाला एक 400M पैरामीटर विज़न एनकोडर है।
चार परिचालन मोड
K2.5 चार अलग-अलग मोड में काम करता है और प्रत्येक मोड विशिष्ट वर्कफ़्लो के लिए अनुकूलित है। K2.5 Instant सरल प्रश्नों के लिए तेज़ जवाब देता है जबकि K2.5 Thinking कठिन समस्याओं के लिए Chain-of-Thought तर्क को सक्रिय करता है। K2.5 Agent स्वायत्त कार्यों को पूरा करने के लिए टूल उपयोग को सक्षम बनाता है। K2.5 Agent Swarm एक साथ काम करने वाले 100 विशिष्ट उप-एजेंटों का समन्वय करता है जिससे कार्य निष्पादन समय 4.5 गुना कम हो जाता है।
| मोड | उपयोग का मामला | गति | तर्क की गहराई |
|---|---|---|---|
| K2.5 Instant | त्वरित उत्तर, सरल कार्य | सबसे तेज़ | मानक |
| K2.5 Thinking | गणित, तर्क, जटिल विश्लेषण | मध्यम | गहरा Chain-of-Thought |
| K2.5 Agent | टूल उपयोग, कोड निष्पादन, ब्राउज़िंग | कार्य पर निर्भर | एजेंटिक तर्क |
| K2.5 Agent Swarm | जटिल शोध, बहु-चरणीय वर्कफ़्लो | सिंगल एजेंट से 4.5x तेज़ | वितरित मल्टी-एजेंट |
बेंचमार्क प्रदर्शन के आंकड़े
K2.5 ने AIME 2025 पर 96.1% (GPT-5.2: 100%), MATH-500 पर 98.0% और GPQA-Diamond पर 87.6% अंक प्राप्त किए हैं। कोडिंग में इसने LiveCodeBench v6 पर 83.1% स्कोर किया जो Claude Opus 4.5 के 64.0% से काफी बेहतर है। इसके Agent Swarm मोड ने टूल्स के साथ Humanity’s Last Exam में 50.2% सफलता हासिल की जो 76% कम लागत पर GPT-5.2 के 45.5% से अधिक है। विज़न क्षमताओं में OCRBench पर 92.3% और VideoMMMU पर 86.6% स्कोर शामिल है।
हल्के और कुशल मॉडल्स

Kimi Linear
अक्टूबर 2025 में लॉन्च किया गया Kimi Linear एक कॉम्पैक्ट 48B MoE आर्किटेक्चर का उपयोग करता है जिसमें प्रति टोकन केवल 3B सक्रिय पैरामीटर होते हैं। इसे एज परिनियोजन और सीमित संसाधनों वाले वातावरण के लिए डिज़ाइन किया गया है और यह अपने आकार के मुकाबले आश्चर्यजनक प्रदर्शन करता है। यह मॉडल 128K टोकन कॉन्टेक्स्ट का समर्थन करता है और उपभोक्ता-ग्रेड हार्डवेयर पर कुशलतापूर्वक चलता है जो इसे स्थानीय परिनियोजन और मोबाइल अनुप्रयोगों के लिए उपयुक्त बनाता है।
Kimi-VL
अप्रैल 2025 में जारी Kimi-VL एक 16B पैरामीटर वाला MoE विज़न-लैंग्वेज मॉडल है जिसमें 3B सक्रिय पैरामीटर हैं। यह Moonshot AI का पहला ओपन-सोर्स मल्टीमोडल मॉडल था जिसे इमेज समझने और टेक्स्ट जनरेशन के लिए बनाया गया था। हालांकि भारी कार्यों के लिए K2.5 की मल्टीमोडल क्षमताओं ने इसकी जगह ले ली है लेकिन Kimi-VL अभी भी हल्के विज़न कार्यों के लिए मूल्यवान बना हुआ है।
सही Kimi मॉडल का चयन

मॉडल का चयन आपकी क्षमता, लागत और परिनियोजन लचीलेपन की आवश्यकताओं पर निर्भर करता है। निम्नलिखित मार्गदर्शिका उपयोग के मामलों को इष्टतम मॉडल विकल्प से मिलाने में मदद करती है।
- अधिकतम क्षमता वाले सामान्य एआई के लिए API या kimi.com के माध्यम से K2.5 का उपयोग करें। इसका Instant मोड सरल कार्यों को संभालता है और Thinking मोड जटिल तर्क सुलझाता है।
- स्वायत्त वर्कफ़्लो और शोध के लिए K2.5 Agent या Agent Swarm मोड का उपयोग करें। यह प्रणाली समानांतर जानकारी एकत्र करने की आवश्यकता वाले बहु-चरणीय कार्यों में उत्कृष्ट है।
- पूर्ण सुविधाओं के साथ सेल्फ-होस्टेड परिनियोजन के लिए Hugging Face से K2.5 डाउनलोड करें और इसे vLLM या Docker के माध्यम से तैनात करें।
- सीमित संसाधनों या एज परिनियोजन के लिए Kimi Linear का उपयोग करें जो मामूली हार्डवेयर पर सक्षम AI प्रदान करता है।
- कम बजट में सरल विज़न कार्यों के लिए Kimi-VL का उपयोग करें जब K2.5 की पूर्ण मल्टीमोडल क्षमताएं आपकी आवश्यकता से अधिक हों।
- कम लागत पर केवल टेक्स्ट-आधारित तर्क के लिए K2-Instruct-0905 का उपयोग करें जब आपको विज़न क्षमताओं की आवश्यकता न हो लेकिन 1T MoE की तर्क शक्ति चाहिए हो।
अक्सर पूछे जाने वाले प्रश्न
कौन सा Kimi मॉडल सबसे अच्छा है?
तर्क, कोडिंग, विज़न और एजेंटिक कार्यों जैसे सभी मानकों पर Kimi K2.5 सबसे सक्षम मॉडल है। यह AIME 2025 पर 96.1% और LiveCodeBench पर 83.1% स्कोर करता है। उन उपयोगकर्ताओं के लिए जिन्हें उच्चतम प्रदर्शन की आवश्यकता नहीं है, Kimi Linear बहुत कम लागत पर बेहतरीन क्षमता प्रदान करता है।
क्या Kimi मॉडल्स का उपयोग मुफ्त है?
वर्तमान में 2026 में सभी Kimi मॉडल्स kimi.com और मोबाइल ऐप के माध्यम से मुफ्त में उपलब्ध हैं। API एक्सेस के लिए प्रति-टोकन भुगतान करना होता है जिसकी कीमत K2.5 के लिए $0.60 प्रति मिलियन इनपुट टोकन से शुरू होती है। Hugging Face पर ओपन-सोर्स वेट मुफ्त में डाउनलोड किए जा सकते हैं।
क्या मैं Kimi मॉडल को स्थानीय रूप से चला सकता हूँ?
K2.5 और K2 मॉडल Hugging Face पर उपलब्ध हैं जिन्हें vLLM, SGLang या Docker के माध्यम से तैनात किया जा सकता है। पूर्ण 1T मॉडल को चलाने के लिए पर्याप्त GPU संसाधनों की आवश्यकता होती है। उपभोक्ता हार्डवेयर पर स्थानीय परिनियोजन के लिए Kimi Linear (48B MoE) अधिक उपयुक्त है।
K2 और K2.5 के बीच क्या अंतर है?
K2.5 में नेटिव मल्टीमोडल क्षमताएं, Agent Swarm मोड और महत्वपूर्ण बेंचमार्क सुधार जोड़े गए हैं। K2 मुख्य रूप से टेक्स्ट-ओनली मॉडल है जिसमें 128K कॉन्टेक्स्ट मिलता है जबकि K2.5 नेटिव रूप से छवियों, वीडियो और दस्तावेज़ों को 256K कॉन्टेक्स्ट के साथ प्रोसेस करता है।
एजेंट स्वार्म (Agent Swarm) मोड क्या है?
यह K2.5 की एक विशेषता है जहाँ 100 विशिष्ट उप-एजेंट जटिल शोध और कार्यों को पूरा करने के लिए एक साथ काम करते हैं, जिससे कार्य निष्पादन समय 4.5 गुना कम हो जाता है।
क्या Kimi मॉडल्स ओपन-सोर्स हैं?
हाँ, प्रमुख मॉडल जैसे K2.5 और K2 एक संशोधित MIT लाइसेंस के तहत ओपन-सोर्स हैं और Hugging Face पर उपलब्ध हैं।


