Hvad er Data Lineage, og hvorfor er det vigtigt?
Data Lineage er den rejse, som data tager fra deres oprettelse gennem deres transformationer over tid. Den beskriver et bestemt datasets oprindelse, bevægelse, egenskaber og kvalitet.
Det er en besværlig opgave at spore datakilden.
Mange store organisationer har i deres ønske om at modernisere med teknologi anskaffet flere forskellige systemer med forskellige dataindgangspunkter og transformationsregler for data, efterhånden som de bevæger sig ind i og på tværs af organisationen.
Disse værktøjer spænder fra ESB-produkter (Enterprise Service Bus), værktøjer til dataintegration; ETL-værktøjer (Extract, Transform and Load), procedurekode, API’er (Application Program Interfaces), FTP-processer (File Transfer Protocol) og endda BI-rapporter (Business Intelligence), der yderligere aggregerer og transformerer data.
Med alle disse forskellige datakilder, og hvis systemerne er integreret, er det vanskeligt at forstå det komplicerede datavæv, de danner, og endnu mindre at få et simpelt visuelt flow. Det er derfor, at dataenes lineage skal spores, og hvorfor dens rolle er så afgørende for forretningsdriften, idet den giver mulighed for at forstå, hvor data stammer fra, hvordan de transformeres, og hvordan de bevæger sig ind i, på tværs af og uden for en given organisation.
Data Lineage Use Case: Fra sporing af COVID-19’s oprindelse til datadrevet forretning
Der er opstået mange teorier om oprindelsen af coronaviruset. En nylig undersøgelse fra University of California San Francisco (UCSF) gennemførte en genetisk analyse af COVID-19 for at fastslå, hvordan viruset blev introduceret specifikt til Californiens Bay Area.
Det påviste mindst otte forskellige virale lineager hos 29 patienter i februar og begyndelsen af marts, hvilket tyder på, at der ikke er tale om et regionalt patientnulpunkt, men snarere om flere uafhængige introduktioner af patogenet. Professoren, der ledede undersøgelsen, sagde: “Det er som gnister, der kommer ind i Californien fra forskellige kilder og forårsager flere skovbrande.”
Som det at forstå viral lineage er nøglen til at stoppe denne og andre potentielle pandemier, er det at forstå oprindelsen af data nøglen til en vellykket datadrevet virksomhed.
Top Five Data Lineage Benefits
Fra mit perspektiv i arbejdet med kunder af forskellige størrelser på tværs af flere brancher vil jeg gerne fremhæve fem fordele ved datalinje:
Business Impact
Data er afgørende for enhver organisations overlevelse. Derfor skal virksomheder tænke over datastrømmen på tværs af flere systemer, der giver næring til organisatorisk beslutningstagning.
For eksempel bruger marketingafdelingen demografiske data og kundeadfærd til at forudsige salget. Den administrerende direktør træffer også beslutninger på baggrund af præstations- og vækststatistikker. En forståelse af dataenes oprindelse og historie hjælper med at besvare spørgsmål om oprindelsen af data i en KPI-rapport (Key Performance Indicator), herunder:
- Hvordan rapportens tabeller og kolonner er defineret i metadataene?
- Hvem er dataejerne?
- Hvad er transformationsreglerne?
Uden datalinje er disse funktioner irrelevante, så det giver mening for en virksomhed at have en klar forståelse af, hvor data kommer fra, hvem der bruger dem, og hvordan de transformeres. Når der sker en ændring i miljøet, er det også værdifuldt at vurdere konsekvenserne for virksomhedens applikationslandskab.
Hvis der sker en ændring i forventningerne til data, giver data lineage mulighed for at bestemme, hvilke downstream applikationer og processer der påvirkes af ændringen, og hjælper med planlægningen af applikationsopdateringer.
Compliance & Auditability
Business termer og datapolitikker bør implementeres gennem standardiserede og dokumenterede forretningsregler. For eksempel skal handelsvirksomheder på kapitalmarkederne forstå deres datas oprindelse og historik for at understøtte risikostyring, datastyring og rapportering i forbindelse med forskellige regler såsom BCBS 239 og MiFID II.
Dertil kommer, at forskellige organisatoriske interessenter (kunder, medarbejdere og revisorer) skal kunne forstå og stole på rapporterede data. Datalinje giver bevis for, at de leverede data er afspejlet nøjagtigt.
Data Governance
En automatiseret datalinje-løsning syr metadata sammen til forståelse og validering af dataanvendelse samt til at mindske de tilknyttede risici.
Den kan automatisk dokumentere end-to-end opstrøms og nedstrøms datalinje og afsløre alle ændringer, der er foretaget, af hvem og hvornår.
Dette dataejerskab, ansvarlighed og sporbarhed er grundlæggende for et sundt datastyringsprogram.
See: Fordelene ved datastyring
Samarbejde
Analytik og rapportering er dataafhængige, hvilket gør samarbejde mellem forskellige forretningsgrupper og/eller afdelinger afgørende.
Visualiseringen af datalinjen kan hjælpe forretningsbrugere med at få øje på de iboende forbindelser i datastrømme og dermed give større gennemsigtighed og kontrollerbarhed.
Synliggørelse af datapipelines og informationsstrømme understøtter yderligere overensstemmelsesindsatsen.
Datakvalitet
Datakvalitet påvirkes af datas bevægelse, transformation, fortolkning og udvælgelse gennem mennesker, processer og teknologi.
Rodårsagsanalyse er det første skridt i reparationen af datakvalitet. Når en data steward fastslår, hvor en datafejl blev indført, kan årsagen til fejlen bestemmes.
Med data lineage og kortlægning kan data stewarden spore informationsstrømmen bagud for at undersøge de anvendte standardiseringer og transformationer for at bekræfte, om de blev udført korrekt.
Se data lineage i praksis
Data lineage-værktøjer dokumenterer datastrømmen ind og ud af en organisations systemer. De registrerer end-to-end lineage og sikrer, at der kan udføres en korrekt konsekvensanalyse i tilfælde af problemer eller ændringer af dataaktiver, når de bevæger sig gennem pipelines.
Den erwin Data Intelligence Suite (erwin DI) genererer automatisk end-to-end data lineage, ned til kolonne-niveau og mellem repositories. Du kan se datastrømme fra kildesystemer til rapporteringslagene, herunder mellemliggende transformation og forretningslogik.
Samarbejd med os til den næste live-demo af erwin Data Intelligence (DI) for at se metadata-drevet, automatiseret datalinje i aktion.