95% van GPU-capaciteit onbenut in Kubernetes-clusters

dinsdag, 21 april 2026 (15:09) - Techzine

In dit artikel:

Onderzoek van Cast AI op tienduizenden cloudclusters toont dat resourcegebruik ver onder de beschikbare capaciteit blijft: GPU’s worden gemiddeld voor slechts 5% benut, CPU’s voor 8% en geheugen voor 20%. Tegelijk lopen de uitgaven op: de kloof tussen wat organisaties betalen en wat ze daadwerkelijk gebruiken groeit terwijl cloudkosten stijgen. Dat is opmerkelijk omdat Kubernetes juist populair is geworden als efficiënt platform voor AI- en ML-workloads, maar ook bij die workloads ligt de GPU‑benutting rond de 5%.

De analyse wijst een structurele oorzaak aan: veel teams vertrouwen op eenmalige rightsizing bij deployment, terwijl workloads en trafficpatronen continu veranderen. Vergissingen bij Spot Instance-keuze, autoscaler-instellingen en node lifecyclebeheer verergeren de verspilling. Omdat stilstaande GPU’s relatief duur zijn (dollars per uur) versus idle CPU’s (centen), heeft inefficiëntie vooral bij GPU‑gedreven ML een grote kostenimpact.

Cast AI pleit daarom voor doorlopende, autonome optimalisatie van cloudinfrastructuur in plaats van statische configuraties. Praktische vervolgstappen voor organisaties zijn onder meer dynamische autoscaling, regelmatige her-evaluatie van instance types en geautomatiseerd nodebeheer om onnodige uitgaven terug te dringen en efficiëntie te herstellen.