Cerebras-samenwerking geeft AWS Trainium nieuw leven

maandag, 16 maart 2026 (10:09) - Techzine

In dit artikel:

Bij AI-workloads draait het vooral om inferencing: de dagelijkse uitvoering van modellen die gebruikersoutput oplevert. AWS en chipmaker Cerebras hebben nu in productie een nieuwe aanpak gepresenteerd die die inferencingstap zelf opsplitst in twee gespecialiseerde delen: prefill en decode. Dat moet zowel performance als efficiëntie flink verbeteren.

Prefill is het verwerken van input — een query, afbeelding of API-call — en vraagt vooral veel rekenkracht. Decode is de daaropvolgende tokengeneratie, het feitelijke produceren van antwoorden, waarbij enorme interne bandbreedte en snelle interconnects cruciaal zijn. AWS zet hiervoor zijn Trainium-accelerators in voor prefill; Cerebras levert de wafer-scale CS-3-hardware met extreem hoge doorvoer (naar eigen zeggen tot ~21 petabyte/sec en ~900.000 cores) voor decode. Door die rollen te scheiden kunnen beide systemen uitspelen waar ze het best in zijn: Trainium voor ruwe rekentaken, Cerebras voor latentie- en bandbreedte-intensieve outputgeneratie.

De techniek staat los niet op zichzelf: al in september verscheen onderzoek naar het splitsen van prefill en decode tussen verschillende accelerators. AWS en Cerebras noemen het “disaggregation” of heterogeen parallelisme — verschillende chiptypes tegelijk gebruiken voor één inferencing-flow. Voor het eerst is zo’n gesplitste opzet nu in productie beschikbaar bij een hyperscaler, wat volgens de betrokken partijen een nieuw tijdperk voor AI-inferencing inluidt.

Strategisch is dit ook een manier voor AWS om Trainium een nieuw bestaansrecht te geven. Trainium bleek niet overal het hoogste prestatieniveau voor training te halen; klanten zoals Anthropic gebruiken daarom een multi-cloudstrategie met onder meer Google TPU’s. Door Trainium als prefill-component in een heterogeen inferencing-pad te positioneren, blijft het nuttig terwijl Cerebras de decode-taak overneemt. AWS werkt ondertussen aan Trainium 4, gepland rond 2027, maar die nieuwe generatie zou op termijn ook in soortgelijke samenstellingen ingezet kunnen worden.

Belangrijke gevolgen: betere hardware-efficiëntie, lagere kosten per inference en potentieel snellere responstijden. Tegelijk vergt de aanpak integratie van verschillende systemen en software-stacks, en succes hangt af van bredere adoptie door AI-labs en cloudklanten. Als andere hyperscalers volgen met vergelijkbare heterogene architecturen, kan de industrie verschuiven van uniforme accelerator-fleets naar gepersonaliseerde combinaties die prefill en decode expliciet scheiden.