Google introduceert Gemini 2.5 Computer Use-model dat browser kan gebruiken
In dit artikel:
Google heeft onlangs als preview via de API het Gemini 2.5 Computer Use-model beschikbaar gesteld. Het model is ontworpen om met grafische gebruikersinterfaces te communiceren — vooral webbrowsers maar ook mobiele apps — door op basis van een gebruikersvraag, een schermafbeelding en recente actiegeschiedenis acties te genereren zoals klikken, typen en scrollen; voor gevoelige stappen (bijvoorbeeld aankopen) vraagt het expliciet bevestiging van de gebruiker en laat clientside code de acties uitvoeren. Volgens Google scoort Gemini 2.5 Computer Use in meerdere benchmarks beter dan alternatieven zoals Claude Sonnet en het agentmodel van OpenAI (onder meer in Online‑Mind2Web, WebVoyager en AndroidWorld). Ontwikkelaars kunnen het model bereiken via de Gemini‑api in Google AI Studio en via Vertex AI; het is vooral geoptimaliseerd voor browsers en mobiele interfaces, maar nog niet voor desktop‑OS‑niveau. Toepassingen liggen bij het automatiseren van webtaken, assistentie bij formulierinvoer en navigatie door interfaces, maar praktische inzet vereist zorg voor toestemming, veiligheid en correcte implementatie door ontwikkelaars.