Red Hat AI 3 pakt complexiteit AI-inferencing aan
In dit artikel:
Red Hat heeft een vernieuwd AI-platform geïntroduceerd, Red Hat AI 3, bedoeld om bedrijven te helpen AI-projecten sneller en betrouwbaarder van proefopzet naar productie te brengen. De focus ligt vooral op inference — de uitvoeringsfase van AI-modellen — omdat veel organisaties moeite hebben om daar rendement uit te halen. Een MIT-studie wijst uit dat ongeveer 95% van de bedrijven geen meetbaar financieel rendement ziet op de circa 40 miljard dollar die aan enterprise-AI wordt gespendeerd, wat de kloof tussen experimenten en productietoepassingen onderstreept.
Het platform omvat componenten zoals Red Hat AI Inference Server, RHEL AI en Red Hat OpenShift AI en bouwt voort op community-projecten als vLLM en llm-d. OpenShift AI 3.0 introduceert llm-d om large language models native op Kubernetes te laten draaien, waarbij gedistribueerde inference wordt gecombineerd met Kubernetes-orkestratie. Voor betere hardwarebenutting en kortere responstijden ondersteunt het platform standaarden en bibliotheken zoals de Kubernetes Gateway API Inference Extension, Nvidia Dynamo (NIXL) KV Transfer Library en DeepEP Mixture of Experts-communicatie.
Red Hat AI 3 biedt operationele hulpmiddelen — “Well-lit Paths” — om grootschalige modeluitrol te vereenvoudigen en cross-platform inzet op verschillende accelerators (o.a. Nvidia en AMD) mogelijk te maken. Nieuwe samenwerkingsfuncties omvatten Model as a Service voor centraal aangeboden modellen, een AI-hub met een gecureerde catalogus van gevalideerde modellen en een Gen AI-studio met een interactieve playground voor snelle prototyping.
Het platform is ook voorbereid op de opkomst van autonome AI-agents: een unified API-laag gebaseerd op Llama Stack, ondersteuning voor het Model Context Protocol (MCP) en een modulaire toolkit voor modelaanpassing (InstructLab-gebaseerde Python-libraries) moeten schaalbare, agentachtige workflows mogelijk maken. Red Hat AI 3 richt zich daarmee op het wegnemen van technische en operationele barrières zodat AI-initiatieven sneller productierijp worden.