Met Osmos-overname bestrijdt Microsoft Fabric rommelige data
In dit artikel:
Microsoft heeft recent de overname bekendgemaakt van Osmos, een in Seattle gevestigde startup die AI-agents inzet om data-ingestie te automatiseren. Het doel is om Microsoft Fabric te versterken met autonome tooling die ruwe, vaak inconsistent geformatteerde data automatisch gebruiksklaar maakt voor analytics en AI-workloads.
Osmos, opgericht in 2019 door ex-Google en ex-Microsoft medewerkers Kirat Pandya en Naresh Venkat, bouwt technologie om traditionele, handmatige ETL-werkstromen te vervangen. Het bedrijf haalde ongeveer 13 miljoen dollar aan Series A-financiering; het overnamebedrag is niet vrijgegeven maar wordt verondersteld hoger te liggen.
De kern bestaat uit twee AI-agents. De AI Data Wrangler normaliseert ‘rare’ of ongestructureerde bronnen (nested JSON, rommelige CSV’s, TXT-bestanden, PDF’s) en leidt relaties af tussen bron- en doelschema’s zonder uitgebreide handcodering. De AI Data Engineer genereert productieklare PySpark-pijplijnen en verwerkt complexere logica zoals multi-file joins en ERP-migraties, met output die native werkt in data lake-omgevingen.
Binnen Microsofts Fabric-platform — dat Data Factory, Synapse Analytics en Power BI samenbrengt rond OneLake (data opgeslagen in open Delta Parquet) — zullen de Osmos-agents naar verwachting fungeren als een soort ‘airlock’ voor binnenkomende data. Microsoft geeft aan dat de agent-technologie gebruikt wordt om ruwe data om te zetten in “analytics- en AI-ready assets” in OneLake; de agentfuncties zullen waarschijnlijk ook integreren met Copilot in Fabric.
Het bestaande Osmos-productportfolio wordt uitgefaseerd zodat het team zich volledig op Fabric kan richten; daarom neemt Osmos momenteel geen nieuwe klanten aan. Het Osmos-team wordt toegevoegd aan het engineeringteam van Fabric, wat past in een bredere trend waarin cloudleveranciers startups overnemen om data-ingang, automatisering en AI-capaciteiten te versnellen.
Kortom: de acquisitie moet organisaties helpen externe en rommelige datasets sneller betrouwbaar te maken voor analyses en AI-toepassingen, door handmatig ETL-werk te verminderen en de aansluiting op Microsofts geïntegreerde analytics-omgeving te vergemakkelijken.