Hệ sinh thái Kimi: Tổng quan mô hình K2.5, K2 và Kimi Linear

Khám phá trí tuệ nhân tạo thế hệ mới với kiến trúc MoE 1T và khả năng đa phương thức vượt trội.

Tổng quan về các mô hình Kimi

Nền tảng Kimi của Moonshot AI cung cấp một dòng mô hình AI ấn tượng được xây dựng trên kiến trúc hỗn hợp chuyên gia với 1 nghìn tỷ tham số. Phiên bản hàng đầu Kimi K2.5, ra mắt vào tháng 1 năm 2026, mang đến khả năng đa phương thức gốc, điều phối Agent Swarm và hiệu suất thử nghiệm cạnh tranh trực tiếp với GPT-5.2 và Claude Opus 4.5. Cho dù bạn cần phản hồi nhanh cho các truy vấn đơn giản hay lý luận sâu cho các vấn đề phức tạp, dòng mô hình Kimi đều có thể đáp ứng mọi nhu cầu sử dụng.

Hệ sinh thái Kimi đã phát triển nhanh chóng kể từ khi K1.5 ra mắt vào đầu năm 2025. Mỗi bản phát hành tiếp theo đều mở rộng khả năng từ lý luận văn bản thuần túy sang hiểu đa phương thức hoàn chỉnh với video, hình ảnh và tài liệu. Tất cả các mô hình thuộc dòng K2 đều chia sẻ nền tảng MoE 1T nhưng khác nhau về dữ liệu huấn luyện, bộ tính năng và chế độ vận hành. Toàn bộ mô hình K2.5 được cung cấp mã nguồn mở theo Giấy phép MIT sửa đổi, có sẵn trên Hugging Face để triển khai tự lưu trữ.

Mô hình	Ngày phát hành	Tham số	Cửa sổ ngữ cảnh	Tính năng chính
Kimi K2.5	Tháng 1 năm 2026	1T MoE (32B hoạt động)	256K token	Đa phương thức gốc, Agent Swarm, mã nguồn mở
Kimi K2-Instruct-0905	Tháng 9 năm 2025	1T MoE (32B hoạt động)	256K token	Cải thiện lập trình, mở rộng ngữ cảnh
Kimi K2	Tháng 7 năm 2025	1T MoE (32B hoạt động)	128K token	MoE 1T đầu tiên, nền tảng mã nguồn mở
Kimi Linear	Tháng 10 năm 2025	48B MoE (3B hoạt động)	128K token	Nhẹ, suy luận hiệu quả
Kimi-VL	Tháng 4 năm 2025	16B MoE (3B hoạt động)	128K token	Thị giác ngôn ngữ, đa phương thức nhỏ gọn
Kimi K1.5	Tháng 1 năm 2025	Không công bố	128K token	Khả năng lý luận tương đương OpenAI o1

Mô hình hàng đầu Kimi K2.5

Kimi K2.5 đại diện cho mô hình mạnh mẽ nhất trong dòng sản phẩm, được huấn luyện trên khoảng 15 nghìn tỷ token hỗn hợp văn bản và thị giác thông qua quá trình huấn luyện trước liên tục trên nền tảng K2. Kiến trúc này sử dụng 384 chuyên gia with 8 chuyên gia được kích hoạt cho mỗi token, kết hợp với cơ chế Multi-Latent Attention và kích hoạt SwiGLU. Thiết kế đa phương thức gốc tích hợp MoonViT-3D, một bộ mã hóa thị giác 400 triệu tham số sử dụng kỹ thuật NaViT để xử lý hình ảnh với độ phân giải linh hoạt.

Bốn chế độ vận hành chính

K2.5 vận hành ở bốn chế độ riêng biệt, mỗi chế độ được tối ưu hóa cho các quy trình làm việc khác nhau. K2.5 Instant mang lại phản hồi nhanh chóng cho các truy vấn trực tiếp mà không cần suy nghĩ sâu. K2.5 Thinking kích hoạt khả năng lý luận theo chuỗi tư duy cho các vấn đề phức tạp. K2.5 Agent cho phép sử dụng công cụ để hoàn thành các tác vụ tự động. Cuối cùng, K2.5 Agent Swarm điều phối tới 100 tác nhân phụ chuyên biệt làm việc song song, giúp giảm thời gian thực thi xuống 4,5 lần.

Chế độ	Trường hợp sử dụng	Tốc độ	Độ sâu lý luận
K2.5 Instant	Câu trả lời nhanh, tác vụ đơn giản	Nhanh nhất	Tiêu chuẩn
K2.5 Thinking	Toán học, logic, phân tích phức tạp	Trung bình	Chuỗi tư duy sâu
K2.5 Agent	Sử dụng công cụ, thực thi mã, duyệt web	Tùy thuộc tác vụ	Lý luận tác nhân
K2.5 Agent Swarm	Nghiên cứu phức tạp, quy trình nhiều bước	Nhanh hơn 4,5 lần	Đa tác nhân phân tán

Hiệu suất thử nghiệm thực tế

K2.5 đạt 96,1% trên AIME 2025, 98,0% trên MATH-500 và 87,6% trên GPQA-Diamond. Trong lĩnh vực lập trình, mô hình đạt 83,1% trên LiveCodeBench phiên bản 6, vượt xa mức 64,0% của Claude Opus 4.5. Chế độ Agent Swarm đã đạt 50,2% trong bài kiểm tra Humanity's Last Exam khi có công cụ hỗ trợ, vượt qua mức 45,5% của GPT-5.2 với chi phí thấp hơn 76%. Khả năng thị giác bao gồm 92,3% trên OCRBench và 86,6% trên VideoMMMU.

Mô hình nền tảng Kimi K2

Được phát hành vào tháng 7 năm 2025, K2 là mô hình MoE 1 nghìn tỷ tham số đầu tiên của Moonshot AI và là nền tảng cho tất cả các bản phát hành thuộc dòng K2 sau này. Việc mở mã nguồn theo Giấy phép MIT đã thiết lập kiến trúc 384 chuyên gia với 32 tỷ tham số hoạt động mà K2.5 kế thừa. Phiên bản gốc hỗ trợ ngữ cảnh 128K token, sau đó được mở rộng lên 256K với bản cập nhật Instruct vào tháng 9 năm 2025.

K2-Instruct-0905 mang lại những cải tiến đáng kể về lập trình và cửa sổ ngữ cảnh 256K mở rộng. Bản cập nhật này đạt 94,5% trên HumanEval, chứng minh khả năng tạo mã mạnh mẽ. Biến thể Instruct vẫn được duy trì như một lựa chọn thay thế thuần văn bản cho những người dùng không có nhu cầu về các tính năng đa phương thức.

Các mô hình trọng lượng nhẹ

Kimi Linear

Ra mắt vào tháng 10 năm 2025, Kimi Linear sử dụng kiến trúc MoE 48B nhỏ gọn với chỉ 3 tỷ tham số hoạt động cho mỗi token. Được thiết kế để triển khai tại biên và trong môi trường hạn chế tài nguyên, mô hình này mang lại hiệu suất đáng ngạc nhiên so với kích thước của nó. Mô hình hỗ trợ ngữ cảnh 128K token và chạy hiệu quả trên phần hardware cấp tiêu dùng, phù hợp cho việc triển khai cục bộ và ứng dụng di động.

Kimi-VL

Phát hành vào tháng 4 năm 2025, Kimi-VL là mô hình thị giác ngôn ngữ MoE 16B tham số với 3 tỷ tham số hoạt động. Đây là mô hình đa phương thức mã nguồn mở đầu tiên của Moonshot AI, được thiết kế cho các tác vụ kết hợp giữa hiểu hình ảnh và tạo văn bản. Mặc dù đã bị thay thế bởi khả năng đa phương thức của K2.5 cho các công việc đòi hỏi cao, Kimi-VL vẫn có giá trị cho các tác vụ thị giác nhẹ nhàng.

Mô hình lý luận Kimi K1.5

K1.5 ra mắt vào tháng 1 năm 2025, đánh dấu bước tiến của Moonshot AI vào lĩnh vực mô hình lý luận nâng cao. Mô hình này tuyên bố đạt hiệu suất tương đương với OpenAI o1 trong các bài thử nghiệm toán học và lập trình, giới thiệu khả năng lý luận dựa trên học tăng cường cho nền tảng Kimi. Mặc dù số lượng tham số chính xác không được tiết lộ, K1.5 đã chứng minh khả năng cạnh tranh của hãng trong lĩnh vực AI.

K1.5 tập trung hoàn toàn vào lý luận dựa trên văn bản mà không có khả năng đa phương thức. Sự ra đời của nó đã đặt nền móng cho dòng K2 mạnh mẽ hơn sau này. Người dùng đang sử dụng K1.5 được khuyến nghị nâng cấp lên K2.5 để tận hưởng những cải tiến vượt trội về mọi mặt, từ hiệu suất lý luận đến khả năng xử lý đa phương thức và tác nhân AI.

Cách chọn mô hình Kimi phù hợp

Việc lựa chọn mô hình phụ thuộc vào yêu cầu cụ thể của bạn về khả năng, chi phí và tính linh hoạt khi triển khai. Hướng dẫn sau đây giúp khớp các trường hợp sử dụng với lựa chọn tối ưu.

Sử dụng AI tổng quát với khả năng tối đa: Sử dụng K2.5 thông qua API hoặc trang web chính thức. Chế độ Instant xử lý các tác vụ đơn giản, trong khi Thinking giải quyết lý luận phức tạp.
Thực hiện quy trình tự động và nghiên cứu: Sử dụng chế độ K2.5 Agent hoặc Agent Swarm để giải quyết các tác vụ nhiều bước đòi hỏi thu thập thông tin song song.
Triển khai tự lưu trữ với đầy đủ tính năng: Tải xuống K2.5 từ Hugging Face và triển khai thông qua vLLM, SGLang hoặc Docker.
Triển khai tại biên hoặc thiết bị nhẹ: Sử dụng Kimi Linear cho các môi trường hạn chế tài nguyên nhưng vẫn cần trí tuệ nhân tạo đủ năng lực trên phần cứng khiêm tốn.
Thực hiện tác vụ thị giác đơn giản với ngân sách thấp: Sử dụng Kimi-VL khi khả năng đa phương thức của K2.5 vượt quá nhu cầu thực tế của bạn.
Lý luận văn bản thuần túy với chi phí thấp: Sử dụng K2-Instruct-0905 khi bạn không cần chức năng thị giác nhưng vẫn muốn sức mạnh lý luận từ kiến trúc MoE 1T.

Câu hỏi thường gặp

Mô hình Kimi nào tốt nhất hiện nay?

Kimi K2.5 là mô hình mạnh nhất hiện nay, dẫn đầu về lý luận, lập trình và thị giác đa phương thức, đặc biệt vượt trội với chế độ Agent Swarm.

Các mô hình Kimi có miễn phí không?

Có, tất cả các mô hình có thể truy cập miễn phí qua website và ứng dụng chính thức. Trọng số mã nguồn mở trên Hugging Face cũng được tải xuống miễn phí.

Tôi có thể chạy mô hình Kimi cục bộ không?

Có, K2, K2.5 và Kimi Linear đều có sẵn trên Hugging Face. Kimi Linear được tối ưu nhất để chạy trên phần cứng tiêu dùng thông thường.

Sự khác biệt giữa K2 và K2.5 là gì?

K2.5 bổ sung khả năng đa phương thức gốc (xử lý hình ảnh/video), chế độ Agent Swarm và hiệu suất lý luận cao hơn so với K2 thuần văn bản.

Kimi K2.5 có mã nguồn mở không?

Có, toàn bộ dòng mô hình K2.5 được cung cấp mã nguồn mở theo Giấy phép MIT sửa đổi.

Ngữ cảnh của Kimi K2.5 dài bao nhiêu?

Kimi K2.5 hỗ trợ cửa sổ ngữ cảnh lên tới 256K token, cho phép xử lý các tài liệu và đoạn hội thoại rất dài.

Kimi Linear phù hợp cho ai?

Phù hợp cho các nhà phát triển cần triển khai AI trên thiết bị di động hoặc máy tính có cấu hình thấp mà vẫn giữ được hiệu suất ổn định.

Chế độ Agent Swarm là gì?

Là tính năng của K2.5 cho phép điều phối tới 100 tác nhân AI cùng lúc để hoàn thành các quy trình nghiên cứu phức tạp nhanh gấp 4,5 lần.

Kiến trúc của mô hình Kimi là gì?

Các mô hình Kimi sử dụng kiến trúc Hỗn hợp chuyên gia (Mixture-of-Experts - MoE) với 1 nghìn tỷ tham số đối với các dòng cao cấp.