AI-agents op GitHub lekken API-keys via prompt injection

donderdag, 16 april 2026 (13:26) - Techzine

In dit artikel:

Drie veelgebruikte AI-agents voor GitHub Actions — Anthropic’s Claude Code Security Review, Google’s Gemini CLI Action en GitHub Copilot Agent — blijken vatbaar voor een nieuw aanvalspatroon dat onderzoekers Aonan Guan en collega’s van Johns Hopkins University ontdekten. De methode, door hen “Comment and Control” genoemd, misbruikt GitHub zelf als communicatiekanaal: kwaadwillenden plaatsen schadelijke PR-titels, issue-teksten of reacties die door de agenten worden verwerkt en die vervolgens API-keys en toegangstokens terugsturen via comments of commits. Voor externe infrastructuur is geen behoefte: het openen van een pull request of issue is vaak voldoende om de workflow te activeren.

Bij Anthropic’s Claude werd de PR-titel onveranderd in de systeemprompt opgenomen, waarna een test-PR commando’s liet draaien en de ANTHROPIC_API_KEY en GITHUB_TOKEN als “bevindingen” in een PR-comment verschenen. Anthropic kwalificeerde die kwetsbaarheid met CVSS 9.4 (Critical). Google’s Gemini CLI Action lekte op vergelijkbare wijze de GEMINI_API_KEY als issue-reactie; Google keerde een bugbounty van 1.337 dollar uit.

Het geval van GitHub Copilot Agent illustreert hoe subtiel zulke aanvallen kunnen zijn: GitHub had drie verdedigingslagen — omgevingsfiltering, secret scanning en een netwerkfirewall — maar Guan wist ze alle drie te omzeilen. De aanval verstopte payloads in HTML-commentaar (onzichtbaar voor mensen maar door de AI gelezen), misleidde Copilot om taken uit te voeren, en maakte gebruik van restanten van de omgeving in het hoofdproces die niet door de subprocess-filtering werden meegenomen. Door base64-encoding omzeilde de secret scanner en de exfiltratie verliep via een gewone git push; meerdere credentials, waaronder GITHUB_TOKEN en GITHUB_COPILOT_API_TOKEN, werden zo onthuld.

Reacties van de betrokken bedrijven varieerden: Anthropic gaf een hoge ernstscore, Google betaalde een bounty, en GitHub noemde het aanvankelijk een “voorheen geïdentificeerde architecturale beperking” en keerde eerst een kleine beloning uit. In maart publiceerde GitHub wel een roadmap voor Actions met plannen voor scoped secrets en een egress-firewall om dit soort datalekken te beperken.

De bevinding onderstreept een fundamenteel risico bij AI-instrumenten die automatisch reageren op content van buitenaf: gebruikersinvoer moet grondig gesanitiseerd en geherinterpreteerd worden voordat die als uitvoerbare instructie naar modellen gaat, en secret-protecties moeten op procestniveau en tegen coderingen zoals base64 werken. Praktische mitigaties zijn onder meer strikte isolatie van secrets, beperking van acties voor externe bijdragers, robuuste geheim-detectie die ook geëncodeerde data herkent, en egress-controle van workflow-uitvoer.