Microsoft Azure Maia-topman voorspelt een complexe toekomst voor AI-chips
In dit artikel:
Begin 2023 gebruikte OpenAI ongeveer 25.000 Nvidia A100‑GPU’s meer dan drie maanden om GPT‑4 te trainen. Training is echter een eenmalige inspanning; inferencing — het continu beantwoorden van gebruikersvragen — vereist veel langduriger rekenkracht. Microsoft ziet in die structurele vraag naar inference de reden om eigen silicon te ontwerpen: Maia 200 is geen trainingschip, maar een specifiek voor inferencing geoptimaliseerde accelerator die Azure in 2026 als kostenefficiënte optie wil inzetten.
Andrew Wall, General Manager van Azure Maia, legt uit dat Maia 200 tussen een algemene parallelle processor (zoals GPU’s) en uiterst gespecialiseerde chips (zoals Cerebras’ CS‑3 of Groq’s LPU) in zit. Microsoft kiest daarmee bewust voor een middenweg: genoeg specialisatie om latency‑kritische elementen van AI‑workloads te versnellen, maar ook voldoende algemeenheid om onverwachte toekomstige modelarchitecturen te ondersteunen. Die afweging is belangrijk omdat chipontwerpen 18–36 maanden vooraf gepland moeten worden; designers kunnen daarom niet exact voorspellen hoe LLM‑architecturen er over korte tijd uitzien.
Technische highlights van Maia 200 tonen de inferencing‑focus: 272 MB on‑die SRAM‑cache (meer dan Nvidia’s Blackwell‑GPU) en 216 GB HBM3e. Door meer relevante data dichter bij de rekenkern te plaatsen, verminderen cache‑misses en dalen token‑latenties — cruciaal voor realtime respons. Tegelijk staat er voldoende extern geheugen op de chip om de meeste modellen volledig op één device te draaien, wat extra round‑trips naar externe opslag en daarmee vertragingen voorkomt.
Microsoft wil Maia 200 niet als keuze die gebruikers expliciet hoeven te maken. In plaats daarvan komt het als onderdeel van een heterogene infrastructuur en abstractielagen: Azure regelt welk hardwareprofiel het beste bij een specifieke workload past. Voor de meeste ontwikkelaars zullen die abstracties volstaan; meer gevorderde gebruikers krijgen toegang tot diepere lagen, inclusief bare‑metal via NPL en ondersteuning voor Triton en PyTorch via een SDK (momenteel preview). Dat software‑ecosysteem is cruciaal: concurrenten zonder een mobiel equivalent van Nvidia’s CUDA liepen al tientallen beloftevolle chips mis omdat ontwikkelaars de tools misten om er efficiënt op te werken.
De trend naar fragmentatie is al zichtbaar in samenwerkingen zoals die van AWS met Cerebras, waarbij inferencing wordt opgesplitst in prefill‑ (KV‑cache berekenen) en decode‑taken, met Trainium 3 en CS‑3 die elk hun sterkte inzetten. Microsoft ziet Maia 200 als één bouwsteen in zo’n mix; het verwacht meerdere Maia‑generaties (Maia 300 rond 2027, later Maia 400) en rekent op een levensduur van ongeveer vier à vijf jaar per generatie.
Een strategisch voordeel van Microsoft is de nauwe afstemming tussen hardware‑ en modelteams. Door rechtstreeks met modelontwikkelaars samen te werken — en tegelijk externe partners en OpenAI‑modellen op Azure te hosten — kunnen hardware‑ontwerpen inspelen op modelinterne kenmerken, in plaats van modellen als zwarte dozen te behandelen. Dat maakt gerichte optimalisaties mogelijk op System on Chip‑niveau en kan extra efficiëntiewinsten opleveren.
Vooruitkijkend verwacht Wall dat de variëteit aan AI‑chips sterk zal groeien: chiplets, 3D‑geheugen en fotonica kunnen “step‑function” verbeteringen brengen die Moore’s law langs andere wegen uitdagen. Die technologische diversiteit zal de rol van abstractielagen, workload‑routing, latency‑budgettering en kostenoptimalisatie alleen maar belangrijker maken. Als Azure erin slaagt om routing en abstractie betrouwbaar en goedkoop te maken, kan de publieke cloud de voorkeursplek worden voor uiteenlopende AI‑workloads — en modellen zelf ontworpen worden om te profiteren van een gedecentraliseerde, heterogene infrastructuur.
Kortom: Maia 200 is Microsofts inzet om inferencing goedkoper en sneller te maken binnen een complex, veelvormig AI‑landschap. De chip is geen allesverslinder zoals GPU’s voor training, maar een weloverwogen, praktische stap richting een toekomst waarin meerdere gespecialiseerde en semi‑algemene processors samenwerken om latency, kosten en schaalbaarheid te balanceren. Wat die toekomst precies brengt, blijft grotendeels onzeker — en dat maakt de ontwikkeling van AI‑rekenkracht juist interessant.