DeepSeek lanceert V3.2-Exp met doorbraak in sparse attention

maandag, 29 september 2025 (13:40) - Techzine

In dit artikel:

Het Chinese AI-bedrijf DeepSeek heeft recent V3.2-Exp uitgebracht, een experimentele tussenversie die voortbouwt op V3.1-Terminus maar een nieuwe sparse attention-mechaniek introduceert. Deze DeepSeek Sparse Attention (DSA) richt zich op het alleen verwerken van relevante stukken in lange teksten, waardoor rekenkosten flink dalen zonder merkbare kwaliteitsverlies vergeleken met het vorige model.

Ontwikkelaars kunnen V3.2-Exp meteen gebruiken via platforms zoals HuggingFace, met day-0 ondersteuning van vLLM, en het model draait op uiteenlopende hardware (van Nvidia H200 tot AMD-chips). DeepSeek biedt ook inference-code voor lokaal draaien; dat vereist echter extra aanpassingen aan GPU-configuratie en expert-instellingen om de HuggingFace-gewichten te converteren.

Op benchmarks houdt V3.2-Exp gelijke tred met V3.1-Terminus: beide scoren 85,0 op MMLU-Pro. Bij programmeertaken presteert V3.2-Exp iets beter (Codeforces: 2121 vs. 2046). DeepSeek benadrukt dat de trainingsinstellingen identiek zijn gehouden om eerlijke vergelijkingen mogelijk te maken.

Om adoptie te vergemakkelijken heeft DeepSeek open-source kernels vrijgegeven: TileLang voor onderzoek en DeepGEMM en FlashMLA als high-performance CUDA-kernels voor productie. Het model valt onder een MIT-licentie, wat commercieel en academisch gebruik toestaat.

Voor organisaties en ontwikkelaars die met uitgebreide documenten werken betekent DSA concreet snellere training en goedkopere inference, terwijl de outputkwaliteit behouden blijft—een relevante stap richting efficiëntere verwerking van lange contexten in praktijksituaties.