OpenAI ruilt met GPT-5.3-Codex-Spark Nvidia in voor Cerebras

vrijdag, 13 februari 2026 (09:26) - Techzine

In dit artikel:

OpenAI heeft GPT-5.3-Codex-Spark uitgebracht, een compacter codeermodel dat is ingericht op extreem snelle inferentie en meer dan 1.000 tokens per seconde kan genereren op Cerebras-hardware. Het is het eerste GPT-model van OpenAI dat niet op Nvidia-GPU’s draait, maar op Cerebras’ Wafer Scale Engine 3 (WSE3), en vormt het eerste tastbare resultaat van een meerjarige samenwerking tussen OpenAI en Cerebras die in januari werd aangekondigd.

Het model is geoptimaliseerd voor lage latency en realtime interactie: ontwikkelaars kunnen tijdens het programmeren direct bijsturen en het model laat minimale, doelgerichte aanpassingen zien. Codex-Spark biedt een tekstuele workflow met een contextvenster van 128k tokens tijdens de lancering en werkt via een latency-first serving tier die aparte rate limits hanteert tijdens de previewfase.

Op benchmarks zoals SWE-Bench Pro en Terminal-Bench 2.0 presteert Codex-Spark goed; op laatstgenoemde behaalde het 77,3 procent nauwkeurigheid, tegen 64 procent voor GPT-5.2-Codex, terwijl taken veel sneller worden afgerond dan bij de zwaardere GPT-5.3-Codex-variant. Daarmee positioneert het model zich als aanvulling op de grotere “frontier”-modellen die bedoeld zijn voor langlopende autonome taken.

OpenAI voerde ook infrastructuurwijzigingen door die latency voor alle modellen verlagen: optimalisaties in streaming tussen client en server, herschreven delen van de inference-stack en snellere sessie-initialisatie. Met een WebSocket-pad en tweaks in de Responses API daalde de overhead per roundtrip met circa 80 procent, per-token overhead met ongeveer 30 procent en halveerde de time-to-first-token; het WebSocket-pad is standaard voor Codex-Spark en wordt breder uitgerold.

Hoewel Cerebras WSE3 de lage-latentieuse workflows mogelijk maakt, blijven GPU’s volgens OpenAI cruciaal voor training en kosten-efficiënte inferentie bij breed gebruik. Het bedrijf ziet een complementair gebruik: GPU’s voor algemene schaal en Cerebras voor scenario’s waar milliseconden verschil maken, soms zelfs gecombineerd voor optimale prestaties.

Codex-Spark is direct beschikbaar voor ChatGPT Pro-gebruikers in de nieuwste Codex-apps, de CLI en de VS Code-extensie; een beperkte groep designpartners heeft ook API-toegang. Vanwege de gespecialiseerde hardware gelden voor dit model aparte rate limits die kunnen veranderen afhankelijk van de vraag; bredere toegang wordt de komende weken uitgebreid.

Kortom: Codex-Spark richt zich op ontwikkelaars die behoefte hebben aan onmiddellijke, gerichte codefeedback en illustreert hoe OpenAI haar infrastructuur diversifieert door naast GPU’s ook gespecialiseerde accelerators in te zetten.

Lees het volledige artikel