DeepSeek V4 verlaagt de kosten van agentic AI op drastische wijze
In dit artikel:
Het Chinese AI-lab DeepSeek heeft met zijn nieuwe model V4 opnieuw een sprong voorgeschoteld die de economische haalbaarheid van agentic AI flink kan veranderen. Waar DeepSeek ruim een jaar geleden furore maakte met R‑1 (de redenerende variant van V3), claimt V4 aanzienlijke efficiencywinst én prestaties die in veel benchmarks op of boven de huidige standaarden uitkomen. Dat maakt langdurige, interactieve workflows — waarbij een LLM niet alleen informatie ophaalt maar ook acties uitvoert in systemen — veel goedkoper om te draaien.
Wat er nieuw is
- Efficiëntie: DeepSeek‑V4‑Pro vraagt volgens de maker slechts 27% van de rekenkracht en 10% van de KV‑cache (het kortetermijngeheugen van het model) vergeleken met V3.2, terwijl het in veel tests state‑of‑the‑art presteert. Alleen Gemini 3.1 Pro verslaat V4 volledig in één specifieke redeneringsbenchmark (SimpleQA Verified).
- Open‑weight: V4 wordt geleverd als open‑weights; technisch kan iemand het model zelf draaien als er ongeveer 800 GB RAM beschikbaar is. Dat geeft onderzoekers en bedrijven meer controle dan gesloten modellen.
- Kostenreductie voor agentic loops: praktijkberekeningen suggereren dat complexe agentic processen die eerder circa $10 per run kostten, met V4 mogelijk terug kunnen naar ongeveer $1,50–$2,50, afhankelijk van contextlengte en output. DeepSeek rekent anders dan de grote westerse aanbieders, die extra kosten in rekening brengen boven bepaalde contextgrenzen (bijv. 272K tokens bij OpenAI, 200K bij Anthropic).
Technische innovaties
V4 combineert meerdere methoden om context en aandacht veel compacter te behandelen: een interleaved hybride van Compressed Sparse Attention (CSA) en Heavily Compressed Attention (HCA) laat tokens in verschillende mate comprimeren op basis van benodigde aandacht. Daarnaast implementeert V4 eerder gepubliceerd routing‑onderzoek (mHC — Manifold‑Constrained Hyper‑Connections) om kennis efficiënter binnen het model door te geven. Die twee onderdelen verklaren grotendeels de grote KV‑cache‑winst.
Hardware en geopolitieke kant
DeepSeek trainde V4 met een mix van Nvidia‑chips en Chinese Huawei Ascend NPU’s en optimaliseerde draaien vooral voor Ascend. Dat is opvallend: het toont aan dat topniveau LLM‑prestaties niet langer exclusief op Amerikaanse hardware hoeven te rusten. De verschuiving kan gevolgen hebben voor chipleveranciers, maar tegelijkertijd waarschuwt het artikel voor Jevons’ paradox: efficiëntere AI kan juist tot meer totaalverbruik leiden.
Impact en onzekerheden
De open aard van DeepSeek’s werk stimuleert onderzoek en adoptie, maar er blijven zorgen over veiligheid, betrouwbaarheid en de marktrespons op door China gebouwde modellen. Als V4 volwassen genoeg blijkt voor productie, kunnen agentic toepassingen veel breder worden toegepast. Lukt dat niet, dan zullen gesloten westerse spelers waarschijnlijk functies of optimalisaties overnemen. Vooralsnog is het aan concurrenten om te bewijzen dat gesloten modellen V4 opnieuw kunnen overtreffen.