NVIDIA lanceert GPU-versnelde eindpunten voor Moonshot AI's Kimi K2.5-model
Jessie A Ellis 04 feb 2026 20:11
NVIDIA biedt nu gratis GPU-versnelde API-toegang tot Kimi K2.5, een multimodaal AI-model met 1T parameters, 384 experts en 262K contextlengte voor ontwikkelaars.
NVIDIA heeft GPU-versnelde eindpunten uitgerold voor Moonshot AI's Kimi K2.5, waardoor ontwikkelaars gratis API-toegang krijgen tot een van de meest capabele open-source multimodale modellen die momenteel beschikbaar zijn. De integratie, aangekondigd op 4 februari 2026, positioneert het model met 1 biljoen parameters voor snelle acceptatie door bedrijven via NVIDIA's build.nvidia.com-platform.
Kimi K2.5 heeft serieuze technische specificaties die van belang zijn voor productie-implementaties. Het model gebruikt een Mixture-of-Experts-architectuur met 384 experts, waarbij slechts 32,86 miljard parameters per token worden geactiveerd—een activeringspercentage van 3,2% dat de inferentiekosten beheersbaar houdt ondanks het enorme aantal parameters. De contextlengte strekt zich uit tot 262.000 tokens, waarmee substantiële documentanalyse en uitgebreide gesprekken kunnen worden afgehandeld.
De vision-mogelijkheden verdienen aandacht. Moonshot heeft een aangepaste MoonViT3d Vision Tower gebouwd die afbeeldingen en videoframes verwerkt tot embeddings, ondersteund door een vocabulaire van 164.000 tokens met vision-specifieke tokens. Dit is geen aangeschroefde multimodaliteit—het is native in de architectuur.
Wat ontwikkelaars krijgen
Gratis prototyping-toegang via NVIDIA's Developer Program betekent dat teams kunnen testen tegen productie-workloads voordat ze infrastructuur committeren. De API volgt OpenAI-compatibele patronen, inclusief ondersteuning voor tool calling voor agentische workflows. NVIDIA NIM-microservices voor gecontaineriseerde productie-inferentie komen eraan, hoewel er geen specifieke tijdlijn werd gegeven.
Voor zelf-gehoste implementaties is vLLM-integratie nu gereed. NVIDIA bevestigde ook ondersteuning voor fine-tuning via het open-source NeMo Framework, waarbij NeMo AutoModel wordt gebruikt om het model rechtstreeks vanuit Hugging Face-checkpoints aan te passen zonder conversiestappen.
Marktcontext
Moonshot AI heeft Kimi K2.5 uitgebracht op 27 januari 2026, getraind op ongeveer 15 biljoen gemengde visuele en teksttokens, gebouwd op de eerdere K2-basis. Het model heeft directe vergelijkingen met Google's Gemini 3 Pro getrokken, met competitieve benchmarks waaronder een score van 78,5% op MMMU-Pro visual understanding-tests en 76,8% op SWE-Bench Verified voor coderingstaken.
Een onderscheidend kenmerk: het "Agent Swarm"-mechanisme dat tot 100 parallelle sub-agents coördineert, wat naar verluidt de uitvoeringstijd met 4,5x verkort ten opzichte van single-agent-benaderingen. Voor bedrijven die complexe autonome systemen bouwen, is dat een betekenisvol capability-verschil.
NVIDIA's ondersteuning van de Blackwell-architectuur suggereert dat het bedrijf Kimi K2.5 ziet als een serieuze concurrent in AI-implementaties voor bedrijven. Ontwikkelaars kunnen het model onmiddellijk gebruiken via build.nvidia.com of via het Kimi API-platform rechtstreeks van Moonshot.
Afbeeldingsbron: Shutterstock- nvidia
- kimi k2.5
- moonshot ai
- multimodale ai
- gpu computing


