llm-d sluit zich aan bij CNCF

dinsdag, 24 maart 2026 (08:55) - Techzine

In dit artikel:

llm-d is officieel opgenomen als CNCF Sandbox-project en valt daarmee onder de Linux Foundation, wat organisaties een neutrale, open standaard biedt voor AI-inferencing in elke cloud en op elke accelerator. Het distributed-inferenceframework werd in mei 2025 geïntroduceerd door Red Hat, Google Cloud, IBM Research, CoreWeave en Nvidia; sindsdien sloten AMD, Cisco, Hugging Face, Intel, Lambda, Mistral AI en de universiteiten van Berkeley en Chicago aan.

Het project pakt een praktisch knelpunt aan: ML-serving is stateful en latency-gevoelig, terwijl traditionele routing en autoscaling daar niet op zijn ingericht. llm-d positioneert zich als Kubernetes-native oplossing en is de primaire implementatie van de Kubernetes Gateway API Inference Extension (GAIE). Met inference-bewuste traffic management via de Endpoint Picker (EPP) verbetert het de plaatsing van workloads en vermindert het cache-fragmentatie en onvoorspelbare vertragingen.

Technische highlights zijn Prefill/Decode Disaggregation — waarbij promptverwerking en tokengeneratie in afzonderlijk schaalbare pods worden gescheiden — en hierarchische KV-cache offloading, die geheugenbelasting over GPU, CPU en opslag verdeelt. In v0.5 toont llm-d bijna nul latentie in multi-tenant SaaS-scenario’s en opschaling tot circa 120.000 tokens per seconde. Een belangrijk doel is het vermijden van vendor lock-in: model- en state-aware routing stuurt requests naar de meest geschikte hardware (Nvidia, AMD, Google) en moet ook zorgen voor open, reproduceerbare inferentie-benchmarks.