Achtergrond - Nederlandse GPT‑NL is klaar voor gebruik: 'Voldoet als enige taalmodel aan AVG'

donderdag, 26 februari 2026 (06:45) - Tweakers

In dit artikel:

TNO heeft met steun van het ministerie van Economische Zaken en Klimaat (een subsidie van 13,5 miljoen euro, toegekend twee jaar geleden) een Nederlands groot taalmodel ontwikkeld: GPT‑NL. Het model, gemaakt in samenwerking met SURF en het Nederlands Forensisch Instituut, is gereed voor gebruik en wordt neergezet als een privacyvriendelijk en ‘soeverein’ alternatief voor buitenlandse diensten, met name gericht op universiteiten, onderzoekers en overheidsorganisaties.

Ontstaan en doel
Het initiatief begon niet primair vanuit politieke soevereiniteitsdrift, maar uit de behoefte aan een model dat Nederlandse taal en cultuur beter begrijpt dan vroege versies van ChatGPT. Nu buitenlandse llm’s die kennis grotendeels hebben ingehaald, ziet TNO vooral vraag naar digitale autonomie bij organisaties die controle willen houden over data en infrastructuur. Daarom is GPT‑NL vooral bedoeld voor zakelijke en publieke toepassingen, niet als algemene consumentenchatbot.

Trainingdata en privacy
Een belangrijk uitgangspunt was privacy en wetmatige gegevensverwerving. TNO gebruikte uitsluitend content waarvoor de herkomst en licentie duidelijk waren: een mix van auteursrechtvrije materialen (bijv. Creative Commons) en auteursrechtelijk beschermde teksten waarvoor expliciet toestemming is verkregen. Hiervoor zijn onder meer stukken van NDP Nieuwsmedia (onder wie De Telegraaf, NRC, AD, NU.nl, RTL Nieuws), delen van de Koninklijke Bibliotheek, Naturalis en Officiële Bekendmakingen gebruikt. Roddels en informele teksten zijn uitgesloten; focus lag op feitelijke bronnen geschikt voor zakelijke contexten.

Om de hoeveelheid Nederlandse tekst te vergroten, heeft TNO ook automatisch gegenereerde content toegevoegd (bijv. het omzetten van Wikidata‑triples naar lopende tekst en vertaalde transcripties van CC BY‑video’s). Dat proces is geautomatiseerd maar bewust beperkt ingezet om kwaliteit te bewaren. Ongeveer 10% van de dataset is Nederlandstalig — relatief weinig in absolute zin, maar volgens TNO aanzienlijk meer vertegenwoordigd dan bij gangbare internationale modellen en bovendien vaker geupsampled. Verder bestaat ongeveer een kwart van de dataset uit opensource‑code (licenties als MIT en Apache), wat de redeneerkracht ten goede schijnt te komen.

Techniek en ontwikkeling
De pretraining vond plaats op de Nederlandse supercomputer Snellius, waarvoor extra GPU‑capaciteit werd toegevoegd (22 nodes met elk vier Nvidia H100). De pretraining duurde negen maanden en kostte een substantieel deel van het budget. Het model telt 26 miljard parameters — kleiner dan veel commerciële allround‑modellen (die vaak 100+ miljard parameters hebben) — en is in eerste instantie gericht op drie use‑cases: samenvatten, vereenvoudigen en werken binnen een RAG‑context (Retrieval‑Augmented Generation: het model gebruikt externe databronnen om antwoorden te onderbouwen).

Privacy en veiligheid
TNO benadrukt dat GPT‑NL conservatiever is geweest bij datakeuze en privacyfiltering dan veel andere projecten. Het model ontving recent een Privacy Award van Privacy First; de organisatie noemde GPT‑NL het eerste llm dat aantoonbaar aan de AVG‑vereisten voldoet. TNO verwijderde systematisch privacygevoelige informatie (niet alleen via eenvoudige patroonherkenning, maar met rigoureuzere filters) en sloot onduidelijke‑licentiecontent uit om risico op datapoisoning of geïnfecteerde documenten te minimaliseren.

Implementatie en toekomst
Na de pretraining is een finetunefase gestart; tien organisaties (publiek en privaat) testen het model nu en leveren feedback. Een bredere uitrol staat gepland voor het najaar, maar het model krijgt dan een andere naam omdat de huidige domeinnaam niet vooraf door TNO was vastgelegd. TNO positioneert GPT‑NL niet als directe uitdager van grote commerciële llm’s, maar stelt dat het voor zijn drie kernfuncties dicht bij GPT‑3.5‑prestaties komt tegen veel lagere kosten.

Internationaal en vervolgplannen
Er is al internationale interesse (bijvoorbeeld uit België, Ierland en Denemarken). TNO wil een opvolger ontwikkelen die meerdere talen ondersteunt en extra functies (zoals function calling) beheerst, maar daarvoor is een veel groter budget nodig — naar schatting minstens tien keer zo veel. Cruciaal is dat TNO vasthoudt aan Europese controle en geen overname door niet‑Europese partijen zal toestaan.

Kortom: GPT‑NL is een doelgerichte, privacybewuste Nederlandse llm voor zakelijke en overheidsgebruikers, ontwikkeld met beperkte middelen maar met aandacht voor datavoorziening, wettelijke naleving en veiligheid.