Clockwork lanceert FleetIQ om AI-training drastisch te verbeteren
In dit artikel:
Het Amerikaanse Clockwork heeft FleetIQ gepresenteerd, een softwarelaag die GPU-clusters efficiënter moet laten samenwerken door communicatieknelpunten in real-time te detecteren en verkeer automatisch om te leiden. FleetIQ fungeert als een Software-Driven Fabric: het signaleert bottlenecks binnen microseconden, ondersteunt stateful fault tolerance zodat langlopende AI-jobs niet volledig opnieuw hoeven te starten na een storing, en werkt hardware‑agnostisch met zowel Nvidia- als AMD‑processors en met netwerkprotocollen als InfiniBand en Ethernet — zowel on‑premises als in de cloud.
De aanleiding is groot: grootschalige AI-training draait steeds minder om pure rekenkracht en meer om het synchroniseren van tienduizenden GPU’s. Door haperende verbindingen halen clusters vaak maar 30–55% van hun theoretische capaciteit. Bij een cluster van 100.000 GPU’s — een investering van naar schatting 5–7 miljard dollar — leidt die inefficiëntie tot ruim 2,25 miljard dollar aan onbenutte capaciteit. Meta rapporteerde eerder soortgelijke verliezen bij de training van Llama 3 door synchronisatie- en hardwareproblemen.
Praktische tests laten veelbelovende resultaten zien. Uber meldt dat de observability van FleetIQ netwerkproblemen in zijn hybride multi-cloudomgeving binnen minuten oplost in plaats van uren. Ook Europese gebruikers zoals DCAI (operator van Denemarken’s supercomputer Gefion) en Nebius ervaren verbeterde betrouwbaarheid en efficiëntie van workloads.
De lancering gaat gepaard met nieuwe financiering; bestaande investeerder NEA leidde de ronde waarmee Clockwork op een waardering uitkwam die viermaal hoger ligt dan twee jaar geleden. Nieuwe investeerders zijn onder anderen Intel‑CEO Lip‑Bu Tan en voormalig Cisco‑topman John Chambers. Tevens is Suresh Vasudevan (Nimble Storage, Sysdig) aangesteld als nieuwe CEO, met Joe Tarantino als VP Worldwide Sales. Vasudevan vat het belang samen: “Communicatie is de nieuwe Moore’s Law.” Clockwork positioneert zich daarmee als een generieke optimalisatielaag die organisaties helpt meer rendement uit reeds aanwezige AI‑infrastructuur te halen.