Microsoft komt met open-source multimodaal Phi-4-redeneermodel

donderdag, 5 maart 2026 (11:26) - Techzine

In dit artikel:

Microsoft heeft onlangs Phi-4-reasoning-vision-15B uitgebracht, een nieuw multimodaal redeneermodel dat beelden, wetenschappelijke grafieken en scherminterfaces kan analyseren. Het combineert twee bestaande technieken — SigLIP-2 (dat afbeeldingen omzet naar verwerkbare numerieke representaties) en het vorig jaar door Microsoft vrijgegeven Phi-4 Reasoning — via een mid-fusion-architectuur. Bij mid-fusion voert alleen een deel van de model-lagen multimodale verwerking uit, wat het hardwaregebruik verlaagt maar een kleine concessie in uitvoerkwaliteit betekent.

Het model is relatief compact maar behaalt betere resultaten dan vergelijkbare modellen op meerdere wiskundige en wetenschappelijke benchmarks; op MathVista_Mini scoorde het bijvoorbeeld 17% hoger dan Google’s gemma-3-12b-it. Een handige feature is dat de redeneermodus via prompts aan- of uitgezet kan worden, waarmee gebruikers de infrastructuurbelasting kunnen beperken.

Voor training gebruikte Microsoft vooral open-source data, selecteerde hoogwaardige datasets, herzag foutieve bijschriften (waarbij nieuwe omschrijvingen gegenereerd werden met GPT-4o en o4-mini) en voegde intern geproduceerde voorbeelden en negatieve voorbeelden toe. Toepassingen zijn onder andere AI-agents die via screenshots interface-elementen herkennen en tools voor diepere visuele analyse van complexe bestanden. Microsoft heeft code en modellen openbaar gemaakt via Hugging Face, GitHub en Azure.