Penggunaan API Multimodal

Penggunaan API Multimodal

Arsitektur multimodal asli Kimi K2.5 menerima gambar dan video secara langsung dalam permintaan API. Encoder visi MoonViT-3D memproses input dengan berbagai resolusi tanpa memerlukan pra-pemrosesan atau pengubahan ukuran di sisi klien.

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Jelaskan bagan ini dan ekstrak datanya."},
                {"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
            ]
        }
    ]
)

Kemampuan visi model ini mencapai skor tinggi pada tolok ukur industri seperti OCRBench dan InfoVQA. Hal ini membuat Kimi K2.5 sangat kuat dalam memahami dokumen, melakukan analisis bagan, serta mengekstraksi data dari gambar mentah dengan akurasi presisi.