Google lanceert langverwachte Ironwood TPU voor AI-inferencing
In dit artikel:
Google introduceert de zevende generatie TPU met codenaam Ironwood en breidt tegelijk zijn Arm-gebaseerde Axion-instances uit. De aankondiging volgt op toelichting tijdens Google Cloud Next in april; de hardware is nu beschikbaar in Google Cloud en moet vooral AI-inferentie en schaalbare training veel sneller en betrouwbaarder maken.
Ironwood is ontworpen als inferentie‑accelerator: één pod koppelt 9.216 chips via een Inter‑Chip Interconnect van 9,6 Tb/s en biedt toegang tot 1,77 PB High Bandwidth Memory. Google spreekt van een verviervoudiging tegenover de vorige generatie (Trillium) en claimt tot 118× meer FP8 ExaFLOPS dan de dichtstbijzijnde concurrent. De chip is daarmee gericht op lage latentie voor toepassingen zoals chatbots en code-assistenten, niet primair bedoeld om de grootste Nvidia Blackwell‑GPU’s voor training te vervangen. De infrastructuur gebruikt liquid cooling en Optical Circuit Switching; Google meldt sinds 2020 99,999% uptime voor zulke systemen.
Anthropic (maker van Claude) is een van de eerste grote afnemers: het bedrijf krijgt in 2026 naar verwachting meer dan een gigawatt capaciteit en heeft toegang tot maximaal een miljoen TPU’s, waarmee het zowel inference als grootschalige training wil uitvoeren onder hoge betrouwbaarheidseisen.
Parallel aan hardware levert Google nieuwe software en services: GKE krijgt Cluster Director voor onderhoud en topologiebewustzijn, het open‑source MaxText-framework ondersteunt geavanceerde trainingsmethoden en de Inference Gateway verbetert load‑balancing — Google rapporteert een daling van time‑to‑first‑token met 96% en tot 30% minder servingkosten.
De uitbreiding van Axion levert twee nieuwe Arm‑instances (N4A en C4A metal) voor algemene workloads; tests van klanten tonen verbeteringen (bijv. 30% sneller transcoden voor Vimeo, 60% betere prijs‑prestatie voor ZoomInfo). Google presenteert dit alles als onderdeel van zijn "AI Hypercomputer"-visie: een combinatie van gespecialiseerde hardware, software en een bedrijfsmodel om AI‑deployments grootschalig en economisch te maken. Ter ondersteuning past Google ook datacenterinfrastructuur aan, waaronder 400 V gelijkstroomlevering voor megawatt‑per‑rack-opstellingen.