Google presenteert TPU 8t en TPU 8i-chips; training en inferentie gescheiden
In dit artikel:
Google heeft op Google Cloud Next 2026 in Las Vegas de achtste generatie TPU’s onthuld en doet dat ditmaal met twee aparte chips: de TPU 8t voor training en de TPU 8i voor inferentie. Beide zijn vanaf de grond opnieuw ontworpen om twee fundamenteel verschillende workloads efficiënter en sneller te maken, en vormen daarmee een directe uitdaging voor Nvidia in de AI-infrastructuurmarkt.
TPU 8t (training)
- Ontworpen om frontier‑modellen zo snel mogelijk te trainen. Een enkele 8t-superpod biedt ongeveer 121 ExaFlops rekenkracht en een geheugenpool van twee petabyte HBM, bijna drie keer de rekencapaciteit van de vorige generatie Ironwood.
- Introduceert het Virgo Network: een scale‑out fabric waarmee opschaling mogelijk is tot circa 134.000 chips binnen één datacenter en theoretisch tot één miljoen chips over meerdere datacenters. Deze architectuur is bedoeld als fundament voor Googles toekomstige trainingscapaciteit.
- Hoge betrouwbaarheid en efficiëntie staan centraal: Google noemt meer dan 97% “goodput” en automatische foutdetectie en -omleiding via real‑time telemetrie, zodat trainingen kunnen doorlopen zonder menselijke interventie.
TPU 8i (inference)
- Gericht op realtime inferentie en AI‑agents, een domein waar de meeste organisaties zich bevinden. Een 8i‑pod kan tot 1.152 chips bevatten, aanzienlijk meer dan de vorige generatie.
- Belangrijke verbeteringen: 288 GB HBM per chip plus 384 MB on‑chip SRAM om grotere werkbelastingen in geheugen te houden en latency te verlagen; verdubbeling van fysieke CPU‑hosts per server en inzet van Google’s Axion ARM‑processors voor betere samenwerking tussen CPU en TPU.
- Netwerk‑ en architectuurwijzigingen (Boardfly) halveren netwerkdiameter en verdubbelen de bandbreedte tussen chips naar 19,2 Tb/s, wat allemaal bijdraagt aan lagere latency, dubbel zoveel prestaties per watt en een circa 80% betere prijs‑prestatieverhouding ten opzichte van Ironwood.
Volledige stack en lock‑in
Google positioneert zich met een geïntegreerde aanpak: silicon, netwerk, datacenter, stroomvoorziening, software en modellen zijn op elkaar afgestemd. Er is brede softwarecompatibiliteit (JAX, PyTorch, vLLM, enz.) en bare‑metal toegang voor klanten, maar de TPU’s zijn alleen via Google Cloud beschikbaar. Dat vergroot de kans op vendor lock‑in: wie kiest voor Googles stack, zal minder snel terugschakelen naar een Nvidia‑gebaseerde infrastructuur zonder aanzienlijke wijzigingen.
Beschikbaarheid en gevolgen
Beide chips komen later dit jaar beschikbaar via Google Cloud; een exacte datum is nog niet gegeven. Google gaat de TPU’s eerst intern grootschalig inzetten. De aangekondigde prestatiewinsten kunnen ontwikkelcycli van grote modellen aanzienlijk versnellen en inferentie op schaal betaalbaarder en efficiënter maken. De hoofdvraag blijft echter of organisaties massaal zullen overstappen gezien bestaande investeringen, ecosysteem‑voorkeuren en zorgen over lock‑in.