Cennik usług i koszty

Kimi K2.5 oferuje konkurencyjne stawki u wielu dostawców, a funkcja automatycznego cache'owania kontekstu w oficjalnym API znacząco redukuje wydatki przy powtarzalnych zapytaniach. Obecnie ceny ulegają regularnym aktualizacjom, dlatego warto śledzić oficjalne komunikaty.
| Dostawca | Wejście (za 1M tokenów) | Wyjście (za 1M tokenów) | Cache'owane wejście |
|---|---|---|---|
| Moonshot Official | 0,60 USD | 3,00 USD | 0,15 USD (75% taniej) |
| OpenRouter | 0,45 USD | 2,20 USD | Zmienne |
| Together AI | 0,50 USD | 2,80 USD | Zmienne |
Stawki te pozycjonują Kimi K2.5 jako rozwiązanie znacznie tańsze od konkurencyjnych modeli o podobnej skali w 2026 roku. Funkcja cache'owania aktywuje się automatycznie, gdy ten sam monit systemowy lub dokument jest używany w kolejnych żądaniach, co nie wymaga żadnych zmian w kodzie aplikacji.
Wykorzystanie funkcji multimodalnych

Natywna architektura Kimi K2.5 pozwala na przesyłanie obrazów i wideo bezpośrednio w treści żądania API. Koder wizyjny MoonViT-3D przetwarza materiały o różnej rozdzielczości bez konieczności ich wcześniejszego skalowania po stronie klienta.
response = client.chat.completions.create(
model="kimi-k2.5",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Opisz ten wykres i wyodrębnij dane."},
{"type": "image_url", "image_url": {"url": "https://example.com/wykres.png"}}
]
}
]
)
Możliwości wizyjne modelu osiągają wyniki na poziomie 92,3% w testach OCRBench oraz 92,6% w InfoVQA. Dzięki temu Kimi K2.5 doskonale radzi sobie z analizą skomplikowanych dokumentów oraz ekstrakcją danych z grafik. Obsługa wideo odbywa się poprzez przesyłanie klatek lub adresów URL do plików filmowych.
Najczęściej zadawane pytania
Czy Kimi API jest zgodne z SDK OpenAI?
Tak, zachowana jest pełna zgodność. Wystarczy zmienić adres bazowy na api.moonshot.cn/v1 i użyć właściwego klucza. Wszystkie funkcje działają identycznie jak w OpenAI.
Jakie jest maksymalne okno kontekstowe modelu K2.5?
Kimi K2.5 obsługuje do 262 144 tokenów (256K) na jedno zapytanie, co pozwala na analizę bardzo długich dokumentów i baz kodu.
Jak działa funkcja cache'owania kontekstu?
Aktywuje się automatycznie dla powtarzających się fragmentów promptów. Pozwala to na obniżenie kosztów tokenów wejściowych o 75%.
Czy mogę hostować model Kimi samodzielnie?
Tak, wagi modelu są dostępne na Hugging Face, co umożliwia wdrożenie na własnej infrastrukturze przy użyciu np. vLLM.
Jakie typy plików obsługuje multimodalne API?
API Kimi K2.5 natywnie obsługuje tekst, obrazy, pliki wideo oraz różnorodne dokumenty (PDF, arkusze).
Ile kosztuje 1 milion tokenów wejściowych?
W oficjalnym API cena wynosi 0,60 USD za 1M tokenów wejściowych, a w przypadku cache'owania - tylko 0,15 USD.
Gdzie znajdę dokumentację dla programistów?
Szczegółowa dokumentacja dostępna jest na stronie platform.moonshot.ai po założeniu konta.




