Metadata governance: niet wat organisaties denken, maar wat nodig is

Metadata governance is geen datacatalogus en geen IT-project. Het is het systematisch vastleggen van kennis over hoe data tot stand is gekomen en wat er onderweg mee is gedaan.

Metadata governance is geen catalogus. Het is ook geen IT-project. Het is het systematisch vastleggen, bewaren en beschikbaar stellen van kennis over hoe data tot stand is gekomen en wat er onderweg mee is gedaan.

Wie dit als een technisch onderwerp beschouwt dat op de agenda van de data-afdeling thuishoort, vergist zich. En wie denkt dat de aanschaf van een datacatalogus dit probleem oplost, vergist zich eveneens. Een catalogus beschrijft wat er is. Metadata governance legt vast wat er is gebeurd.

Metadata: kennis over data

Als een organisatie brondata verwerkt, zoals aangeleverde bestanden, API-feeds of externe datasets, worden er tijdens dat verwerkingsproces tientallen impliciete vragen beantwoord. Welk bestand is binnengekomen? Op welk moment? Hoeveel records bevatte het? Zijn alle verwachte kolommen aanwezig? Welke transformaties zijn toegepast? Hoelang heeft de verwerking geduurd?

Die antwoorden zijn metadata. In de meeste organisaties worden ze nergens vastgelegd. Ze zijn bekend bij de engineer die het systeem heeft gebouwd, misschien verspreid over losse logbestanden, en ze verdwijnen bij de volgende aanpassing of de volgende medewerker.

Governance: beleid en infrastructuur

Metadata governance is het beleid en de infrastructuur om die kennis systematisch vast te leggen, niet als bijproduct, maar als primaire uitkomst van het verwerkingsproces.

De vergelijking met de bankensector is treffend. Elke transactie wordt vastgelegd met tijdstip, tegenpartij, bedrag en autorisatiespoor. Dat is geen optie die een engineer heeft ingebouwd; het is een structurele verplichting die in de processen is verankerd. Niemand in een bank zou ervan opkijken als een transactie achteraf niet traceerbaar bleek. Toch is dat voor datapipelines die publieke of gereguleerde datasets verwerken, in veel organisaties nog steeds de dagelijkse realiteit.

Drie categorieën

Latero Control brengt drie categorieën van metadata samen die elk een eigen rol spelen in de verantwoording.

Uitvoeringsmetadata legt vast wat er is gedraaid en wanneer. Welk proces heeft welk bronbestand verwerkt, op welk moment, hoelang heeft het geduurd, hoeveel records zijn binnengekomen en hoeveel zijn doorgelaten? Dit is de basisverantwoording: het bewijs dat het systeem heeft gedraaid en wat het heeft gedaan.

Kwaliteitsmetadata legt vast welke controles zijn uitgevoerd en hoe ze zijn beoordeeld. Is het bronbestand volledig ontvangen? Vallen de waarden binnen verwachte bandbreedtes? Zijn er duplicaten? Was het beleid op het moment van uitvoering enforce of observe? Is een afwijking geregistreerd en doorgegaan, of heeft die de verwerking stopgezet? Dit is het integriteitsbewijs.

Herkomstmetadata legt vast waar elk getal vandaan komt. Van een waarde in een gold-tabel kan worden teruggelopen naar de bronwaarden in het oorspronkelijke bestand: welk bronveld heeft bijgedragen, welke transformatiestap heeft de waarde beïnvloed, welke versie van het bronbestand is gebruikt.

Geen optionele uitbreidingen

Deze drie categorieën zijn niet het domein van organisaties die extra willen investeren in datakwaliteit. Ze zijn het minimale bewijs dat een governance-verantwoordelijke moet kunnen overleggen wanneer een toezichthouder, een interne auditfunctie of een externe accountant vragen stelt over de betrouwbaarheid van een datapijplijn of rapportage.

Een organisatie die alleen de einduitkomsten bewaart maar niet de metadata die die uitkomsten onderbouwen, kan de vragen niet beantwoorden die er op dit moment toe doen. Niet omdat de data fout is, maar omdat het bewijs ontbreekt.

Heeft dit artikel vragen opgeroepen over uw eigen architectuurvraagstuk?

Neem contact op