Nvidia laat MoE-modellen tien keer sneller draaien

donderdag, 4 december 2025 (11:40) - Techzine

In dit artikel:

Nvidia publiceerde nieuwe benchmarkresultaten waaruit blijkt dat zijn nieuwste AI-server, de GB200 NVL72, mixture-of-expertsmodellen (MoE) aanzienlijk versnelt—tot wel tien keer sneller dan de vorige generatie, volgens tests met modellen zoals Moonshot AI’s Kimi K2 Thinking en varianten van DeepSeek. MoE-architecturen schakelen per prompt alleen de meest relevante submodellen (experts) in, wat rekencapaciteit vergroot tegen lagere kosten; die aanpak kreeg veel aandacht nadat begin 2025 efficiënte MoE-ontwerpen lieten zien dat ze konden concurreren met veel zwaardere modellen.

Nvidia schrijft de winst toe aan de schaalbaarheid van de NVL72 (72 GPU’s per node) en sterk verbeterde NVLink-verbindingen, die efficiëntere routing tussen actieve experts en betere parallelle uitvoering mogelijk maken. In de door Nvidia gepresenteerde voorbeelden zitten ook modellen uit China; Reuters plaatst die resultaten in de bredere internationale context waarin Chinese AI-modellen steeds vaker worden gebruikt om nieuwe hardware te belasten.

De aankondiging valt samen met een verschuiving in de sector van training naar grootschalige inference voor eindgebruikers. Hoewel Nvidia traditioneel leidend is bij training, neemt de concurrentie bij inference toe—onder meer van AMD en Cerebras, die ook multi-chip systemen ontwikkelen die vanaf volgend jaar op de markt kunnen komen. Parallel hieraan bouwen Chinese bedrijven eigen hardware of verplaatsen zware training naar datacenters buiten China. Nvidia stelt dat de NVL72 geschikt is voor uiteenlopende generaties en herkomsten van grootschalige modellen, waarmee het platform zich positioneert als een krachtig middel voor toekomstig MoE-gebruik.