Data lineage

Samenvatting: Data lineage toont de volledige levensloop van data. Van bron tot rapport, met betekenis en context. Essentieel voor vertrouwen in cijfers.

Wat is data lineage?

Data lineage is het overzicht van de reis die data aflegt binnen een organisatie. Je ziet welke bron de data heeft, welke stappen ze doorloopt en waar ze uiteindelijk terechtkomt. Dat kan gaan van een operationeel systeem tot een dashboard of rapport.

Je kan het vergelijken met een trajectbeschrijving. Niet alleen het vertrek en de aankomst tellen, maar ook alle tussenstops. Zonder dat overzicht wordt het moeilijk om te begrijpen waarom cijfers zijn wat ze zijn.

Achtergrond en context

In veel organisaties groeit data organisch. Eerst is er een boekhoudpakket. Daarna een CRM. Later komen er Excel-bestanden, scripts en dashboards bij. Elk nieuw stuk voegt complexiteit toe.

Zonder data lineage verdwijnt het overzicht snel. Niemand weet nog welke bron de juiste is. Of waarom een cijfer plots verandert. Data lineage ontstaat uit de nood aan transparantie en controle.

Waarom is data lineage belangrijk?

Data lineage helpt om vertrouwen te creëren in data. Gebruikers begrijpen waar cijfers vandaan komen. Dat maakt discussies concreter en beslissingen beter onderbouwd.

Daarnaast is data lineage belangrijk voor:

  • Foutopsporing en troubleshooting

  • Impactanalyse bij wijzigingen

  • Audits en rapportering

  • Kennisoverdracht binnen teams

Zonder data lineage wordt data afhankelijk van mensen. Met data lineage wordt kennis gedeeld.

Hoe werkt data lineage?

Data lineage volgt data doorheen verschillende lagen:

  • Bronsystemen zoals ERP, CRM of externe bestanden

  • Dataverwerking via ETL- of ELT-processen

  • Opslag in een datawarehouse of databank

  • Gebruik in rapporten, dashboards en analyses

Die flow kan op verschillende niveaus worden vastgelegd. Van hoog niveau tot kolomniveau. De juiste keuze hangt af van het doel en de doelgroep.

Technische data lineage

Wat is het?

Technische data lineage beschrijft hoe data technisch stroomt door systemen. Ze focust op tabellen, kolommen, views en code. De vraag is: hoe wordt data verplaatst en aangepast?

Wat wordt vastgelegd?

  • Brontabellen en velden

  • Transformaties in SQL of ETL

  • Relaties tussen lagen in het datawarehouse

  • Afhankelijkheden tussen datasets en rapporten

Voor wie?

Technische data lineage is vooral nuttig voor data engineers en BI-ontwikkelaars. Ze gebruiken het bij foutopsporing, impactanalyse en onderhoud.

Hoe wordt het onderhouden?

Technische data lineage wordt vaak automatisch opgebouwd via tooling. Dat werkt goed, maar vraagt controle. Complexe logica is niet altijd correct te interpreteren.

Functionele data lineage

Wat is het?

Functionele data lineage beschrijft data vanuit een businessperspectief. Ze focust op betekenis, definities en gebruik. De vraag is: wat stelt deze data voor?

Wat wordt vastgelegd?

  • Definities van KPI’s en metrics

  • Businessregels en filters

  • Uitzonderingen en afspraken

  • Gebruik van cijfers in beslissingen

Voor wie?

Functionele data lineage is bedoeld voor businessgebruikers, management en data stewards. Ze verhoogt begrip en consistent gebruik van data.

Hoe wordt het onderhouden?

Functionele data lineage wordt meestal manueel vastgelegd. Via documentatie, datacatalogi en overleg. Automatisatie is beperkt, maar afstemming is cruciaal.

Het verschil en de samenhang

Technische en functionele data lineage vullen elkaar aan. De ene toont hoe data stroomt, de andere wat data betekent. Zonder technische lineage ontbreekt controle. Zonder functionele lineage ontbreekt context.

Een goede aanpak verbindt beide. Een businessdefinitie linkt naar een technische bron. Zo ontstaat één verhaal.

Tools en applicaties voor data lineage

Er bestaan verschillende soorten tools:

Technische lineage tools

Deze focussen op automatische detectie van datastromen via code en metadata. Ze zijn sterk in detail, maar minder in betekenis.

Datacatalogi met lineage

Deze combineren metadata, definities en lineage. Ze zijn toegankelijker voor businessgebruikers en ondersteunen governance.

Open source oplossingen

Deze zijn flexibel en kostenbewust, maar vragen meer technische kennis en onderhoud.

Manuele oplossingen

Schema’s, wiki’s en documenten blijven waardevol. Zeker bij beperkte complexiteit of als startpunt.

In de praktijk is een combinatie vaak het meest haalbaar.

Best practices voor data lineage

  • Start met een duidelijk doel

  • Begin klein en focus op kritieke data

  • Combineer technische en functionele lineage

  • Documenteer op het juiste niveau

  • Gebruik duidelijke en consistente termen

  • Automatiseer waar het zinvol is

  • Hou alles actueel

Eenvoud en discipline zijn belangrijker dan volledigheid.

Data lineage volhouden in de organisatie

Maak het onderdeel van het werk

Koppel data lineage aan bestaande processen. Bijvoorbeeld bij nieuwe rapporten of wijzigingen. Zo wordt het routine.

Werk met eigenaars

Elke dataset of KPI heeft een duidelijke eigenaar nodig. Zonder eigenaarschap veroudert data lineage snel.

Beperk de scope

Documenteer niet alles. Focus op wat beslissingen stuurt of extern wordt gebruikt.

Combineer tooling met overleg

Tools tonen structuren. Overleg zorgt voor begrip. Beide zijn nodig.

Maak het zichtbaar en nuttig

Gebruik data lineage actief bij vragen en wijzigingen. Wat gebruikt wordt, blijft bestaan.

Praktisch voorbeeld

Een Belgische KMO heeft een omzetdashboard. De definitie verandert doorheen de tijd. Zonder data lineage ontstaan discussies.

Met data lineage is duidelijk:

  • Welke bron gebruikt wordt

  • Welke transformaties gebeuren

  • Wat omzet precies betekent

Wijzigingen verlopen gecontroleerd. Vertrouwen groeit.

Data Panda-visie

Data lineage hoeft niet perfect te zijn. Het moet werken. Liever eenvoudig en gedragen dan complex en vergeten. Data lineage is geen document, maar een gewoonte.

Conclusie

Data lineage maakt data begrijpelijk, controleerbaar en betrouwbaar. Het verbindt techniek met betekenis. Door klein te starten, duidelijke afspraken te maken en het in te bedden in de werking, blijft data lineage volhouden en waardevol.

Laatst Bijgewerkt: December 22, 2025