Kimi API K2.5 Guide & Integration
Tích hợp mô hình AI mạnh mẽ với ngữ cảnh 256K và khả năng đa phương thức vượt trội ngay hôm nay.
Bắt đầu ngay
Giới hạn tỷ lệ và phân cấp

API chính thức sử dụng hệ thống phân cấp dựa trên số tiền nạp tích lũy của tài khoản. Các cấp độ cao hơn sẽ mở khóa khả năng xử lý đồng thời và tỷ lệ yêu cầu lớn hơn để phục vụ nhu cầu mở rộng quy mô.
| Phân cấp | Nạp tiền tích lũy | Yêu cầu đồng thời | Yêu cầu mỗi phút |
|---|---|---|---|
| Cấp 1 | $10 | 50 | 200 |
| Cấp 2 | $100 | 100 | 500 |
| Cấp 3 | $500 | 300 | 2,000 |
| Cấp 5 | $3,000 | 1,000 | 10,000 |
Đối với các ứng dụng yêu cầu giới hạn cao hơn, các gói dành cho doanh nghiệp với giới hạn tỷ lệ tùy chỉnh luôn sẵn sàng thông qua việc liên hệ trực tiếp với đội ngũ bán hàng của Moonshot AI. Các phiên bản mô hình có thể được cập nhật thường xuyên để đảm bảo hiệu suất tối ưu cho người dùng.
Sử dụng API đa phương thức

Kiến trúc đa phương thức bản địa của Kimi K2.5 chấp nhận hình ảnh và video trực tiếp trong các yêu cầu API. Bộ mã hóa thị giác MoonViT-3D xử lý các đầu vào có độ phân giải thay đổi mà không cần tiền xử lý hoặc thay đổi kích thước ở phía máy khách.
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Mô tả biểu đồ này và trích xuất dữ liệu."},
{"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
]
}
]
)
Khả năng thị giác đạt điểm số 92.3% trên OCRBench và 92.6% trên InfoVQA, giúp Kimi K2.5 trở nên đặc biệt mạnh mẽ trong việc hiểu tài liệu, phân tích biểu đồ và trích xuất dữ liệu từ hình ảnh. Đầu vào video được hỗ trợ bằng cách truyền nhiều khung hình hoặc URL video trực tiếp vào hệ thống.
Câu hỏi thường gặp
Kimi API có tương thích với SDK OpenAI không?
Công cụ này hoàn toàn tương thích. Bạn chỉ cần thay đổi base_url thành api.moonshot.cn/v1 và sử dụng mã khóa API của Moonshot. Các tính năng như hoàn thiện trò chuyện, gọi hàm, phát trực tuyến và đầu ra có cấu trúc đều hoạt động giống hệt nhau mà không cần sửa đổi mã nguồn phức tạp.
Cửa sổ ngữ cảnh tối đa là bao nhiêu?
Kimi K2.5 hỗ trợ tối đa 262,144 tokens (256K) cho mỗi yêu cầu. Khả năng này cho phép xử lý toàn bộ kho mã nguồn, bộ tài liệu dài và lịch sử hội thoại mở rộng trong một lần gọi API duy nhất mà không cần các chiến lược chia nhỏ dữ liệu như trước đây.
Bộ nhớ đệm ngữ cảnh hoạt động như thế nào?
Bộ nhớ đệm ngữ cảnh tự động kích hoạt khi cùng một tiền tố bao gồm lời nhắc hệ thống hoặc tài liệu xuất hiện trong các yêu cầu liên tiếp. Các token được lưu đệm chỉ tốn 0.15 USD cho mỗi triệu token thay vì mức giá chuẩn, giúp tối ưu hóa chi phí vận hành cho các dự án dài hạn.
Tôi có thể tự lưu trữ mô hình Kimi không?
Kimi K2.5 được phát hành dưới dạng mã nguồn mở với giấy phép MIT sửa đổi. Bạn có thể tải trọng số mô hình từ Hugging Face ở định dạng block-fp8 và triển khai bằng vLLM hoặc Transformers. Lưu ý rằng mô hình 1T đầy đủ yêu cầu thiết lập đa GPU mạnh mẽ để hoạt động ổn định.
Kimi K2.5 có hỗ trợ hình ảnh và video không?
Có, đây là mô hình đa phương thức bản địa, hỗ trợ phân tích hình ảnh, biểu đồ và video thông qua API.
Làm thế nào để tăng giới hạn tỷ lệ (rate limit)?
Giới hạn tỷ lệ được nâng cấp dựa trên số tiền nạp tích lũy trong tài khoản Moonshot của bạn hoặc qua các gói doanh nghiệp.
Tôi có thể sử dụng Kimi API qua các nền tảng nào khác?
Bạn có thể sử dụng qua OpenRouter, Together AI, NVIDIA NIM hoặc tự triển khai từ Hugging Face.
Mô hình Kimi K2.5 có bao nhiêu tham số?
Mô hình Kimi K2.5 sử dụng kiến trúc MoE với tổng cộng khoảng 1 nghìn tỷ tham số.




