AI draait op data, en die data is bijna altijd waardevol en vaak gevoelig. Zonder duidelijke afspraken over wie wat met welke data mag, ontstaat al snel een rommeltje: data die overal rondzwerft, niemand die precies weet waar gevoelige gegevens zitten, en modellen die getraind zijn op data die daar nooit voor bedoeld was. Data governance brengt daar orde in.
Data governance is het geheel van afspraken en maatregelen rond je data: hoe je het indeelt, wie erbij mag, waarvoor het gebruikt mag worden en hoe lang je het bewaart. In Vertex AI is dit extra belangrijk, omdat data hier door modellen, pipelines en endpoints heen stroomt en in voorspellingen terechtkomt. Een goed governance-fundament maakt het verschil tussen verantwoorde AI en een ongeluk dat staat te gebeuren.
Waarom governance bij AI cruciaal is
Bij AI vermenigvuldigt slechte governance zich. Train je een model op data die gevoelige informatie bevat, dan kan het model die informatie reproduceren. Geef je een toepassing toegang tot meer data dan nodig, dan is de schade bij een lek navenant groter. De data stroomt door je hele AI-systeem, dus problemen aan de bron werken overal door.
Bovendien eisen regels steeds strenger dat je weet en kunt aantonen wat je met welke data doet. Een model dat persoonsgegevens verwerkt zonder dat je weet welke en waarom, is een risico voor je organisatie. Governance geeft je het overzicht en de controle om dat te voorkomen.
Data stroomt, dus keuzes aan de bron werken door
Bij AI is data niet statisch maar stroomt ze door modellen, pipelines en endpoints heen tot in voorspellingen. Daardoor werken keuzes over data aan de bron door in je hele systeem. Goede governance aan de bron voorkomt problemen verderop die veel lastiger te herstellen zijn.
Data classificeren
De basis van governance is weten wat je hebt. Classificeer je data naar gevoeligheid: openbare data, interne data, vertrouwelijke data, persoonsgegevens. Pas als je weet welke data hoe gevoelig is, kun je er passend mee omgaan. Je behandelt openbare productinformatie nu eenmaal anders dan medische gegevens.
Die classificatie stuurt al je verdere keuzes. Hoe gevoeliger de data, hoe strenger de toegang, hoe korter vaak de bewaartermijn en hoe zwaarder de beveiliging. Zonder classificatie behandel je alles hetzelfde, wat of te streng en onwerkbaar is, of te los en onveilig.
In de praktijk verdeel je de governance-taken over vier rollen. De data-eigenaar bepaalt de classificatie en wie toegang krijgt tot zijn data. De gebruiker zet de data in binnen de grenzen die de eigenaar stelt. De beheerder richt de technische controles in die het beleid afdwingen, zoals IAM-rollen en versleuteling. De toezichthouder controleert of het beleid wordt nageleefd en aan de regels voldoet.
Toegang en doelbinding regelen met IAM
Goede governance regelt niet alleen wie bij data mag, maar ook waarvoor. Data die voor het ene doel is verzameld, mag je niet zomaar voor een ander doel gebruiken. Dat heet doelbinding en het is een hoeksteen van verantwoorde dataverwerking, zeker bij persoonsgegevens.
In Vertex AI regel je toegang via IAM-rollen op project- en resourceniveau. Geef principals (gebruikers, groepen of serviceaccounts) zo min mogelijk rechten: alleen de rollen die ze echt nodig hebben voor hun taak. Werk waar mogelijk met groepen in plaats van losse gebruikers, en gebruik aparte serviceaccounts per pipeline of toepassing, zodat je per onderdeel kunt zien en sturen wat het mag.
Voor AI betekent doelbinding dat je je afvraagt of de data die je in een model stopt, daar wel voor gebruikt mag worden. Klantgegevens die zijn verzameld voor facturering mag je niet zonder meer gebruiken om een marketingmodel te trainen. Leg per dataset vast voor welke doelen ze gebruikt mag worden en houd je daaraan.
Zo richt je data governance in Vertex AI in
- Classificeer je data naar gevoeligheid (openbaar, intern, vertrouwelijk, persoonsgegevens).
- Wijs per dataset een eigenaar aan die over toegang beslist.
- Leg vast voor welke doelen elke dataset gebruikt mag worden.
- Stel toegang in via IAM-rollen volgens minimale rechten en doelbinding.
- Versleutel gevoelige data met je eigen sleutel via CMEK en sluit gevoelige projecten af met VPC Service Controls.
- Bepaal bewaartermijnen passend bij de gevoeligheid en de regels.
- Houd de herkomst van data bij via lineage in Knowledge Catalog voor de data die je in modellen gebruikt.
Versleutelen en afschermen
Toegangsbeleid alleen is niet genoeg; je wilt gevoelige data ook technisch afschermen. Vertex AI ondersteunt versleuteling met je eigen sleutels via Customer-Managed Encryption Keys (CMEK), zodat jij de controle houdt over de sleutel waarmee je data en metadata zijn versleuteld. Wil je CMEK voor je pipelines, dan maak je de metadata store met die sleutel aan voordat je een pipeline draait.
Om te voorkomen dat data je omgeving onbedoeld verlaat, zet je een perimeter rond je gevoelige projecten met VPC Service Controls. Resources en data die Vertex AI Pipelines aanmaakt, vallen dan automatisch binnen die perimeter, wat het risico op data-exfiltratie verkleint. Heb je te maken met eisen rond data residency, dan houdt Vertex AI je verwerking en opslag in de gekozen regio.
Configureer versleuteling vooraf, niet achteraf
CMEK voor pipeline-metadata werkt alleen als je de metadata store met de sleutel aanmaakt voordat je een pipeline draait. Achteraf omzleutelen van bestaande resources is lastig. Bepaal dus vooraf welke projecten gevoelig zijn en richt CMEK en VPC Service Controls in voordat je gevoelige data verwerkt.
Bewaren en verwijderen
Data eindeloos bewaren is een risico. Hoe langer je gevoelige data houdt, hoe groter de kans dat er ooit iets mee misgaat, en hoe meer regels eisen dat je een reden hebt om ze nog te bewaren. Stel daarom bewaartermijnen in en verwijder data die je niet meer nodig hebt en niet meer mag houden.
Dit geldt ook voor data die in je AI-systeem terechtkomt: logs van prompts, tussenresultaten en verwerkte gegevens. Die kunnen ongemerkt gevoelige informatie bevatten. Neem ze mee in je bewaarbeleid, want vergeten data in een uithoek van je systeem is precies waar problemen ontstaan.
Herkomst bijhouden met lineage
Voor verantwoorde AI moet je kunnen nagaan waar de data in je modellen vandaan komt. Welke dataset voedde welk model, en mocht die data daarvoor gebruikt worden? Dit bijhouden van herkomst, oftewel data lineage, maakt je AI navolgbaar. Als er ooit een vraag is over een model, kun je terug naar de bron.
In Google Cloud leg je deze keten vast met data lineage in Knowledge Catalog (de governance-dienst die tot april 2026 Dataplex Universal Catalog heette en sindsdien Gemini-ondersteund is). De lineage is geintegreerd met Vertex AI Pipelines, zodat je data kunt volgen van bron en verwerking tot in training en deployment. Vertex AI-modellen, datasets en features worden bovendien automatisch in de catalog opgenomen, en de Vertex AI Model Registry geeft je per model de versie, herkomst en serving-configuratie.
Dit is meer dan een formaliteit. Stel dat blijkt dat een dataset fouten of ongepaste data bevatte, dan wil je weten welke modellen erop zijn getraind, zodat je die kunt nakijken of opnieuw trainen. Zonder bijgehouden herkomst sta je in zo'n geval volledig in het duister.
Maak herkomst een gewoonte, geen bijzaak
Houd bij elk model bij welke datasets het voedden en of die data voor dat doel gebruikt mocht worden. Gebruik de lineage in Knowledge Catalog en de Model Registry, zodat je bij een probleem met een bron precies kunt bepalen welke modellen je moet nakijken, in plaats van alles te moeten wantrouwen.
Tot slot
Data governance is geen rem op AI maar de voorwaarde om er verantwoord en duurzaam mee te werken. Door je data te classificeren, toegang en doelbinding via IAM te regelen, gevoelige data te versleutelen, verstandig te bewaren en herkomst via lineage bij te houden, bouw je AI die je kunt vertrouwen en verantwoorden. Het is werk aan de basis dat zich overal in je systeem terugbetaalt.
Wat is data governance precies?
Het geheel van afspraken en maatregelen over wie welke data mag gebruiken, voor welk doel en hoe lang, inclusief classificatie, toegang, bewaring en herkomst.
Waarom is governance bij AI extra belangrijk?
Omdat data door modellen, pipelines en endpoints heen stroomt tot in voorspellingen. Problemen aan de bron werken door in je hele systeem en zijn dan veel lastiger te herstellen.
Wat is doelbinding?
Het principe dat je data alleen gebruikt voor het doel waarvoor ze is verzameld. Klantdata voor facturering mag je niet zomaar gebruiken om een ander model te trainen.
Hoe regel ik toegang in Vertex AI?
Via IAM-rollen op project- en resourceniveau, volgens het principe van minimale rechten. Werk met groepen en aparte serviceaccounts per pipeline of toepassing.
Waarom herkomst bijhouden?
Zodat je weet welke data welk model voedde. Blijkt een bron later fout, dan kun je precies bepalen welke modellen je moet nakijken of opnieuw trainen.
Welke dienst gebruik ik voor lineage in Google Cloud?
Knowledge Catalog (voorheen Dataplex Universal Catalog) legt data lineage vast en is geintegreerd met Vertex AI Pipelines en Model Registry.
Goede data governance is de stille basis onder verantwoorde AI. Investeer in classificatie, IAM-toegang, doelbinding, versleuteling, bewaarbeleid en lineage, en je bouwt AI-systemen die niet alleen krachtig zijn maar ook betrouwbaar en naleefbaar.