Nvidia's Groq 3 LPU richt zich op agentic AI-inferencing

dinsdag, 17 maart 2026 (06:40) - Techzine

In dit artikel:

Op GTC 2026 in San Jose kondigde Nvidia niet alleen snellere Rubin-GPU’s aan, maar presenteerde ook het eerste product uit de recente 20 miljard dollar-deal met Groq: de Groq 3 LPU. De chip, waarvan het ontwerp in korte tijd publiekelijk werd getoond (drie maanden na de licentie en het aantrekken van Groq-oprichter Jonathan Ross en president Sunny Madra), illustreert Nvidia’s koers naar heterogene hardware die inference extreem snel maakt.

Groq 3 is specifiek gebouwd voor AI‑inference: de architectuur verplaatst data direct tussen on‑chip geheugeneenheden, waardoor terugkerende geheugenbottlenecks die bij traditionele GPU‑ontwerpen optreden grotendeels verdwijnen. Hoewel de totale geheugencapaciteit kleiner is dan bij Nvidia’s GPU’s, levert Groq 3 een enorme bandbreedte van ongeveer 40 petabyte per seconde. De chip wordt geleverd in LPX-serverracks met 256 LPU’s per rack en 128 GB aan solid‑state werkgeheugen (per rack), een aanpak die het dichtst in de buurt komt van concurrerende systemen zoals Cerebras (dat recent een grote samenwerking met AWS aankondigde).

Ian Buck (VP & GM Hyperscale & HPC bij Nvidia) positioneert Groq 3 als coprocessor bij de Rubin‑GPU’s: samen moeten ze de doorvoer “op elk token” sterk verhogen. Nvidia noemt een target van tot 1.500 tokens per seconde voor agent‑achtige communicatie, een snelheid die nodig is voor continu onderling communicerende AI‑agents. De Groq 3 LPX is bedoeld om te combineren met de Vera Rubin NVL72 (Rubin‑GPU’s plus Vera‑CPU’s), een combinatie gericht op modellen met biljoenen parameters en contextvensters van miljoenen tokens. Nvidia stelt dat deze systemen tot 35× meer throughput per megawatt en tot tienmaal hogere opbrengsten voor datacenteroperators kunnen bieden.

Naast Groq 3 LPX en Vera Rubin NVL72 onthulde Nvidia nog drie racks (een Vera CPU‑rack, een Bluefield‑4 STX‑opslagrack en een Spectrum‑6 SPX‑netwerkrack); het totaal Vera Rubin‑platform omvat zeven chips en vijf racks. De stap benadrukt Nvidia’s strategie om gespecialiseerde inference‑hardware in datacenters te integreren om te voldoen aan de steeds hogere eisen van real‑time, agentische AI‑workloads.