Achtergrond - Arm schrapt Cortex en Immortalis: Lumex belooft AI‑sprong voor smartphones

woensdag, 10 september 2025 (07:00) - Tweakers

In dit artikel:

Het Britse Arm heeft tijdens zijn Tech Client Days het Lumex-platform onthuld: de opvolger van CSS for Clients, met vernieuwde cpu- en gpu-architectuur, een nieuwe interconnect en een speciale matrix‑accelerator voor AI. De nadruk ligt op lokale AI-mogelijkheden, hogere prestaties en lagere energieconsumptie, maar gaming en klassieke applicaties blijven ook expliciet aandachtspunten.

Belangrijkste veranderingen in één oogopslag
- Nieuwe naamconventie: de Cortex‑ en Immortalis‑namen verdwijnen; cpu‑cores heten voortaan C1‑Ultra, C1‑Premium, C1‑Pro en C1‑Nano, en gpu‑topmodellen vallen onder Mali (G1‑Ultra e.d.).
- SME2: een Scalable Matrix Extensions‑unit die binnen het cpu‑cluster AI‑matrixberekeningen veel efficiënter uitvoert, waardoor veel AI‑workloads lokaal op de cpu kunnen draaien zonder aparte npu. Arm claimt gemiddeld ~3,7× verbetering voor courante AI‑taken.
- GPU‑vernieuwing: Mali G1‑serie met RTUv2 voor raytracing, interne netwerk‑ en cacheverbeteringen en MMUL.FP16‑ondersteuning voor snellere AI‑berekeningen op de gpu. Gemiddelde prestatiewinst ~20% ten opzichte van vorig jaar (verschilt per game/workload).
- System Interconnect en DSU: geïntegreerde interconnect voor cpu en gpu met kortere paden (tot −75% latency) en veel lagere leakage (−86%); DSU ondersteunt SME2, maximaal 14 cores per cluster en heeft sterk fijnmazigere L3‑cache‑sleeping voor energiewinst.

Cpu‑cores en architectuur
Arm verdeelt de nieuwe cores als volgt:
- C1‑Ultra: opvolger van de X925, behoudt 10‑wide execution window maar met betere benutting; gespecificeerd tot 4,1 GHz in plaats van ~3,6–3,8 GHz vorig jaar; L2 van 2 MB en verdubbelde L1‑datacache (128 kB). Arm spreekt van tot ~25% hogere singlethreadprestaties (mede afhankelijk van kloksnelheid) en dubbele doelen: piekprestaties en lager energieverbruik bij iso‑performance.
- C1‑Premium: nieuw tussen Ultra en Pro in, ontworpen als afgeslankte Ultra voor goede prestaties met ~35% kleinere omvang dan een Ultra; levert tussen Pro en Ultra in prestatie/prijs.
- C1‑Pro: opvolger van Cortex‑A725; 10–16% sneller bij iso‑klok en tot ~12% zuiniger bij iso‑performance; dient als ‘werkpaard’ in verschillende rollen afhankelijk van configuratie.
- C1‑Nano: uiterst energiezuinig, ongeveer 26% architectonisch efficiënter en iets sneller (~5%) dan de vorige generatie superzuinige cores.

SME2 (bijna‑NPU)
SME2 is geen losse core maar een dedicated logicblok in het cpu‑cluster dat matrix‑operaties versnelt (Armv9.2‑uitbreiding). Doel: developers hoeven niet steeds naar gpu of npu te porten, wat complexiteit, latency en variatie tussen SoCs vermindert. Fabrikanten kunnen 0, 1 of 2 SME2‑units per SoC kiezen; Arm adviseert doorgaans één unit. Apple en Arm’s HPC‑lijnen hebben al ervaring met SME, maar SME2 is volgens Arm geoptimaliseerd voor consumentgerichte AI‑workloads (zoals spraakherkenning, audio en LLM‑inference).

Caches, DSU en interconnect
- DSU‑C1 ondersteunt maximaal 14 cores en SME2; architectuuroptimalisaties verlagen DSU‑vermogen ~11% t.o.v. vorig model door fijnere sleep‑modes in L3‑blokken (inactiviteit omhoog van ~53% naar ~96% in Arm’s cijfers) en efficiënter transportnetwerk.
- System Interconnect combineert voorheen gescheiden paden (CI‑700/NI‑700) in één geheel met geïntegreerde system level cache (SLC). Kortere paden verlagen latency en leakage fors; tbu/tcu‑mechanieken voor geheugen‑vertalingen werden eveneens energiezuiniger gemaakt (Arm noemt tot ~56% besparing in tbu’s).

Gpu‑vernieuwingen
- Immortalis‑merk vervalt; topgpu is nu Mali G1‑Ultra (in essentie vergelijkbaar met vroegere Immortalis‑ontwerpen: raytracing, ≥10 cores). De gpu‑architectuur van de vijfde generatie kreeg verbeterde tiler, verdubbelde L2‑caches en intern netwerk met twee keer de bandbreedte.
- RTUv2 introduceert een single‑ray model voor nauwkeurigere belichting en is een standalone, uitschakelbare unit; Arm toonde betere raytracing‑fps in een Unreal demo (Mali G1‑Ultra 37,5 fps vs 26,8 fps van een oudere Immortalis‑gpu).
- AI op de gpu profiteert van MMUL.FP16‑instructies; Arm claimt ~20% snellere AI‑workloads op de gpu.

Software en ontwikkelaarsondersteuning
Arm levert KleidiAI als belangrijke library voor AI‑ontwikkeling en optimalisatie, inclusief SME2‑ondersteuning. Er is samenwerking met Google (Android 16 integratie), Unreal, Unity, PyTorch en TensorFlow. Nieuwe telemetrie‑tools (integratie met Perfetto later dit jaar) helpen bottlenecks opsporen en applicaties te tunen voor Lumex‑hardware. Arm biedt ook tape‑out‑klare GDSII‑bestanden voor kritische cores (C1‑Ultra, C1‑Pro), Mali G1‑Ultra, SME2 en SLC, zodat licentiehouders sneller producten kunnen realiseren.

Hardwarereferenties en timing
Lumex is primair ontworpen voor 3 nm‑productie. Arm gebruikt een referentie‑fpga‑platform met een ‘flagship’ configuratie: 2× C1‑Ultra, 6× C1‑Pro, 1× SME2, C1‑DSU met 16 MB L3 en een 14‑core Mali G1‑Ultra met 4 MB L2; aanbevolen geheugen is lpddr5x‑9600MT/s. Dankzij de kant‑klaar bestanden en samenwerkingen verwacht Arm dat fabrikanten sneller op de markt kunnen komen; consumentenproducten met Lumex‑designs zouden al eindjaar (bijv. Singles Day/november) aangekondigd kunnen worden.

Waarom dit belangrijk is
Lumex markeert Arm’s stap naar systeem‑ en ontwikkelaarvriendelijke AI‑mogelijkheden op device: door matrix‑acceleratie in het cpu‑cluster en betere gpu‑AI en raytracing wil Arm lokale AI‑tasks minder afhankelijk maken van cloud‑servers, terwijl tegelijk gaming‑prestaties en energiezuinigheid verbeteren. Voor licentiehouders biedt Arm met tape‑out‑assets, referentieconfiguraties en tooling een snellere route naar nieuwe SoCs op 3 nm.

Lees het volledige artikel