OpenAI ruilt met GPT-5.3-Codex-Spark Nvidia in voor Cerebras
In dit artikel:
OpenAI heeft GPT-5.3-Codex-Spark uitgebracht, een compacter codeermodel dat is ingericht op extreem snelle inferentie en meer dan 1.000 tokens per seconde kan genereren op Cerebras-hardware. Het is het eerste GPT-model van OpenAI dat niet op Nvidia-GPU’s draait, maar op Cerebras’ Wafer Scale Engine 3 (WSE3), en vormt het eerste tastbare resultaat van een meerjarige samenwerking tussen OpenAI en Cerebras die in januari werd aangekondigd.
Het model is geoptimaliseerd voor lage latency en realtime interactie: ontwikkelaars kunnen tijdens het programmeren direct bijsturen en het model laat minimale, doelgerichte aanpassingen zien. Codex-Spark biedt een tekstuele workflow met een contextvenster van 128k tokens tijdens de lancering en werkt via een latency-first serving tier die aparte rate limits hanteert tijdens de previewfase.
Op benchmarks zoals SWE-Bench Pro en Terminal-Bench 2.0 presteert Codex-Spark goed; op laatstgenoemde behaalde het 77,3 procent nauwkeurigheid, tegen 64 procent voor GPT-5.2-Codex, terwijl taken veel sneller worden afgerond dan bij de zwaardere GPT-5.3-Codex-variant. Daarmee positioneert het model zich als aanvulling op de grotere “frontier”-modellen die bedoeld zijn voor langlopende autonome taken.
OpenAI voerde ook infrastructuurwijzigingen door die latency voor alle modellen verlagen: optimalisaties in streaming tussen client en server, herschreven delen van de inference-stack en snellere sessie-initialisatie. Met een WebSocket-pad en tweaks in de Responses API daalde de overhead per roundtrip met circa 80 procent, per-token overhead met ongeveer 30 procent en halveerde de time-to-first-token; het WebSocket-pad is standaard voor Codex-Spark en wordt breder uitgerold.
Hoewel Cerebras WSE3 de lage-latentieuse workflows mogelijk maakt, blijven GPU’s volgens OpenAI cruciaal voor training en kosten-efficiënte inferentie bij breed gebruik. Het bedrijf ziet een complementair gebruik: GPU’s voor algemene schaal en Cerebras voor scenario’s waar milliseconden verschil maken, soms zelfs gecombineerd voor optimale prestaties.
Codex-Spark is direct beschikbaar voor ChatGPT Pro-gebruikers in de nieuwste Codex-apps, de CLI en de VS Code-extensie; een beperkte groep designpartners heeft ook API-toegang. Vanwege de gespecialiseerde hardware gelden voor dit model aparte rate limits die kunnen veranderen afhankelijk van de vraag; bredere toegang wordt de komende weken uitgebreid.
Kortom: Codex-Spark richt zich op ontwikkelaars die behoefte hebben aan onmiddellijke, gerichte codefeedback en illustreert hoe OpenAI haar infrastructuur diversifieert door naast GPU’s ook gespecialiseerde accelerators in te zetten.