Meta schuift op naar AI-inferencing met nieuwste chips

donderdag, 12 maart 2026 (09:55) - Techzine

In dit artikel:

Meta en Broadcom hebben binnen twee jaar vier opeenvolgende generaties van hun eigen AI‑accelerator (MTIA) ontwikkeld: MTIA 300, 400, 450 en 500. De chips zijn of worden al in productie genomen en meerdere generaties zijn gepland voor grootschalige inzet in datacenters in 2026–2027. Meta hanteert bewust een snelle releasemarge van ongeveer zes maanden per generatie, waarbij een modulaire chiplet‑architectuur voorkomt dat hele racksystemen vervangen moeten worden.

MTIA 300 is primair ontworpen voor rangschikking en aanbevelingswerkloads (R&R) en wordt momenteel ingezet voor R&R‑training. MTIA 400 bouwt daarop voort met een 72‑accelerator domein en levert volgens Meta een aanzienlijke FP8‑prestatieverbetering (circa 400%). MTIA 450 richt zich specifiek op GenAI‑inference: het verdubbelt de HBM‑bandbreedte ten opzichte van 400 en biedt volgens Meta veel hogere MX4 FLOPS (ongeveer 6× ten opzichte van FP16/BF16). MTIA 500 verhoogt HBM‑bandbreedte opnieuw met 50%, breidt HBM‑capaciteit met ~80% uit en verbetert MX4 FLOPS nog eens circa 43% ten opzichte van 450. Tussen MTIA 300 en 500 groeit de HBM‑bandbreedte ongeveer 4,5× en de rekenkracht rond 25×. Meta toonde MTIA voor het eerst op ISCA 2023 en heeft ondertussen al honderdduizenden chips geproduceerd.

Belangrijke ontwerpkeuzes: inference‑first optimalisatie, een PyTorch‑native softwarestack geïntegreerd met vLLM en Triton (ontwikkelaars kunnen torch.compile/export gebruiken zonder MTIA‑specifieke herschrijvingen), en identieke chassis/rack/netwerkontwerpen zodat nieuwe generaties in dezelfde fysieke voetafdruk passen. Meta combineert deze eigen siliconenstrategie met externe partnerships (o.a. AMD Instinct en veel gebruik van Nvidia‑hardware) om snel in te spelen op de verschuiving van traditionele R&R‑workloads naar GenAI‑inference.