Wat is Data Lineage? Top 5 voordelen van Data Lineage

Wat is Data Lineage en waarom is het belangrijk?

Data lineage is de reis die data aflegt vanaf de creatie tot aan de transformaties in de loop van de tijd. Het beschrijft de oorsprong, beweging, kenmerken en kwaliteit van een bepaalde gegevensset.

Het traceren van de bron van gegevens is een lastige taak.

Veel grote organisaties hebben, in hun wens om te moderniseren met behulp van technologie, verschillende systemen aangeschaft met verschillende invoerpunten voor gegevens en transformatieregels voor gegevens terwijl deze zich binnen en door de organisatie bewegen.

Deze tools variëren van ESB-producten (enterprise service bus), tools voor gegevensintegratie, ETL-tools (extract, transform and load), procedurele code, API’s (application program interfaces), FTP-processen (file transfer protocol) en zelfs BI-rapporten (business intelligence reports) waarmee gegevens verder worden samengevoegd en getransformeerd.

Met al deze verschillende gegevensbronnen, en als systemen zijn geïntegreerd, is het moeilijk om het ingewikkelde gegevensweb dat ze vormen te begrijpen, laat staan om een eenvoudige visuele stroom te krijgen. Daarom moet de herkomst van gegevens worden getraceerd en is de rol ervan zo essentieel voor de bedrijfsvoering, waarbij de mogelijkheid wordt geboden om te begrijpen waar gegevens vandaan komen, hoe ze worden getransformeerd en hoe ze zich binnen, door en buiten een bepaalde organisatie bewegen.

Gegevens Lineage Use Case: From Tracing COVID-19’s Origins to Data-Driven Business

Er zijn veel theorieën ontstaan over de oorsprong van het coronavirus. Een recente studie van de Universiteit van Californië San Francisco (UCSF) voerde een genetische analyse uit van COVID-19 om te bepalen hoe het virus specifiek in de Bay Area van Californië werd geïntroduceerd.

Het ontdekte ten minste acht verschillende virale lineages bij 29 patiënten in februari en begin maart, wat suggereert dat er geen regionale patiënt nul is, maar eerder meerdere onafhankelijke introducties van de ziekteverwekker. De professor die de studie leidde, zei: “Het is alsof er vonken vanuit verschillende bronnen Californië binnenkomen, die meerdere bosbranden veroorzaken.”

Net zoals het begrijpen van de viruslijn de sleutel is tot het stoppen van deze en andere potentiële pandemieën, is het begrijpen van de oorsprong van gegevens de sleutel tot een succesvolle datagestuurde onderneming.

Top vijf voordelen van datalineage

Vanuit mijn oogpunt van samenwerking met klanten van verschillende grootte in verschillende sectoren, wil ik graag vijf voordelen van datalineage belichten:

Businessimpact

Gegevens zijn van cruciaal belang voor het overleven van elke organisatie. Daarom moeten bedrijven nadenken over de gegevensstroom tussen meerdere systemen die de besluitvorming binnen de organisatie voeden.

De marketingafdeling gebruikt bijvoorbeeld demografische gegevens en klantgedrag om de verkoop te voorspellen. De CEO neemt ook beslissingen op basis van prestatie- en groeistatistieken. Inzicht in de herkomst en geschiedenis van de gegevens helpt bij het beantwoorden van vragen over de herkomst van gegevens in een Key Performance Indicator (KPI)-rapport, waaronder:

  • Hoe de rapporttabellen en -kolommen in de metagegevens zijn gedefinieerd?
  • Wie zijn de eigenaren van de gegevens?
  • Wat zijn de transformatieregels?

Zonder gegevens lineage zijn deze functies irrelevant, dus het is zinvol voor een bedrijf om een duidelijk inzicht te hebben in waar gegevens vandaan komen, wie ze gebruikt, en hoe ze worden getransformeerd. Ook is het waardevol om bij een verandering in de omgeving te beoordelen wat de gevolgen zijn voor het applicatielandschap van de onderneming.

In het geval van een verandering in de verwachtingen ten aanzien van gegevens, biedt gegevens lineage een manier om te bepalen welke downstream-toepassingen en processen door de verandering worden beïnvloed en helpt bij het plannen van applicatie-updates.

Compliance & Auditability

Bedrijfstermen en gegevensbeleid moeten worden geïmplementeerd door middel van gestandaardiseerde en gedocumenteerde bedrijfsregels. De naleving van deze bedrijfsregels kan worden gevolgd via de datalineage, waarbij controleerbaarheid en validatiecontroles worden geïntegreerd in gegevenstransformaties en -pijplijnen om waarschuwingen te genereren wanneer er niet-conforme gegevensinstanties zijn.

Naleving van regelgeving stelt hogere eisen aan de transparantie van bedrijven als het gaat om het traceren en auditen van gegevens. Handelsondernemingen op de kapitaalmarkten moeten bijvoorbeeld inzicht hebben in de oorsprong en geschiedenis van hun gegevens ter ondersteuning van risicobeheer, gegevensgovernance en rapportage voor verschillende voorschriften, zoals BCBS 239 en MiFID II.

Ook moeten verschillende belanghebbenden in de organisatie (klanten, werknemers en auditors) in staat zijn om gerapporteerde gegevens te begrijpen en te vertrouwen. Data lineage biedt het bewijs dat de verstrekte gegevens accuraat zijn weergegeven.

Data Governance

Een geautomatiseerde data lineage oplossing voegt metadata samen voor het begrijpen en valideren van datagebruik, alsmede het beperken van de bijbehorende risico’s.

Het kan end-to-end upstream en downstream data lineage automatisch documenteren, waarbij alle wijzigingen worden onthuld die zijn aangebracht, door wie en wanneer.

Dit gegevenseigendom, -verantwoording en -traceerbaarheid is fundamenteel voor een goed data governance-programma.

Zie: De voordelen van data governance

Samenwerking

Analyses en rapportages zijn data-afhankelijk, waardoor samenwerking tussen verschillende bedrijfsgroepen en/of afdelingen cruciaal is.

De visualisatie van data lineage kan zakelijke gebruikers helpen de inherente verbanden van gegevensstromen te ontdekken en zo zorgen voor meer transparantie en controleerbaarheid.

Het zien van datapijplijnen en informatiestromen ondersteunt verder de compliance-inspanningen.

Gegevenskwaliteit

Gegevenskwaliteit wordt beïnvloed door de verplaatsing, transformatie, interpretatie en selectie van gegevens door mensen, processen en technologie.

Root-cause-analyse is de eerste stap in het herstellen van gegevenskwaliteit. Zodra een data steward bepaalt waar een fout in de data is geïntroduceerd, kan de reden voor de fout worden vastgesteld.

Met data lineage en mapping kan de data steward de informatiestroom terug traceren om de toegepaste standaardisaties en transformaties te onderzoeken en te bevestigen of ze correct zijn uitgevoerd.

Zie Data Lineage in actie

Data lineage tools documenteren de stroom van data in en uit de systemen van een organisatie. Ze leggen end-to-end lineage vast en zorgen ervoor dat de juiste impactanalyse kan worden uitgevoerd in het geval van problemen of wijzigingen in data assets terwijl ze door pijplijnen bewegen.

De erwin Data Intelligence Suite (erwin DI) genereert automatisch end-to-end data lineage, tot op kolomniveau en tussen repositories. U kunt gegevensstromen bekijken van bronsystemen tot de rapportagelagen, inclusief tussentijdse transformatie en bedrijfslogica.

Doe met ons mee aan de volgende live demo van erwin Data Intelligence (DI) om metadata-gestuurde, geautomatiseerde gegevens lineage in actie te zien.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.