Vad är Data Lineage? Top 5 Benefits of Data Lineage

Vad är Data Lineage och varför är det viktigt?

Data Lineage är den resa som data gör från dess skapande till dess omvandlingar över tiden. Den beskriver en viss datamängds ursprung, rörelse, egenskaper och kvalitet.

Det är en mödosam uppgift att spåra datakällan.

Många stora organisationer har i sin önskan att modernisera sig med tekniken skaffat sig flera olika system med olika datainmatningspunkter och omvandlingsregler för data när de rör sig in i och genom organisationen.

Dessa verktyg är allt från ESB-produkter (Enterprise Service Bus), verktyg för dataintegration, ETL-verktyg (Extract, Transform and Load), procedurkoder, API-gränssnitt (Application Program Interfaces), FTP-processer (File Transfer Protocol) och till och med BI-rapporter (Business Intelligence) som ytterligare aggregerar och omvandlar data.

Med alla dessa olika datakällor, och om systemen är integrerade, är det svårt att förstå den komplicerade dataväven som de bildar, än mindre att få ett enkelt visuellt flöde. Detta är anledningen till att datans härkomst måste spåras och varför dess roll är så viktig för affärsverksamheten, vilket ger möjlighet att förstå varifrån data kommer, hur den omvandlas och hur den rör sig in i, över och utanför en viss organisation.

Användningsfall för datalinjering: Från spårning av COVID-19:s ursprung till datadriven affärsverksamhet

En mängd teorier har uppstått om coronavirusets ursprung. I en nyligen genomförd studie från University of California San Francisco (UCSF) genomfördes en genetisk analys av COVID-19 för att fastställa hur viruset introducerades specifikt till Kaliforniens Bay Area.

Det upptäcktes minst åtta olika viruslinjer hos 29 patienter i februari och början av mars, vilket tyder på att det inte fanns någon regional patientnolla utan snarare flera oberoende introduktioner av patogenen. Professorn som ledde studien sade: ”Det är som gnistor som kommer in i Kalifornien från olika källor och orsakar flera skogsbränder.”

Såväl som det är viktigt att förstå virala linjer för att stoppa denna och andra potentiella pandemier, är det viktigt att förstå ursprunget till data för att kunna bedriva en framgångsrik datadriven verksamhet.

Top Five Data Lineage Benefits

Från mitt perspektiv i arbetet med kunder av olika storlekar i flera olika branscher vill jag lyfta fram fem fördelar med datalinjering:

Business Impact

Data är avgörande för varje organisations överlevnad. Därför måste företag tänka på flödet av data i flera olika system som ger bränsle till organisatoriskt beslutsfattande.

Marknadsavdelningen använder till exempel demografi och kundbeteende för att prognostisera försäljningen. VD:n fattar också beslut baserat på resultat- och tillväxtstatistik. En förståelse för datans ursprung och historia hjälper till att besvara frågor om ursprunget av data i en Key Performance Indicator (KPI)-rapport, inklusive:

  • Hur rapportens tabeller och kolumner definieras i metadata?
  • Vem är dataägarna?
  • Vad är omvandlingsreglerna?

Och utan dataledning är dessa funktioner irrelevanta, så det är klokt att ett företag har en tydlig förståelse för varifrån data kommer, vem som använder dem och hur de omvandlas. När det sker en förändring i miljön är det också värdefullt att bedöma konsekvenserna för företagets applikationslandskap.

I händelse av en förändring av dataförväntningarna ger datalinjering ett sätt att fastställa vilka nedströmsapplikationer och processer som påverkas av förändringen och hjälper till att planera för applikationsuppdateringar.

Compliance & Auditability

Företagsbegrepp och datapolicys bör implementeras genom standardiserade och dokumenterade affärsregler. Efterlevnaden av dessa affärsregler kan spåras genom dataledning, genom att införliva kontroller för granskningsbarhet och validering i datatransformationer och pipelines för att generera varningar när det finns datainstanser som inte uppfyller kraven.

Regulatorisk efterlevnad ställer högre krav på transparens för företag när det gäller spårning och granskning av data. Handelsföretag på kapitalmarknaderna måste till exempel förstå sina datas ursprung och historik för att stödja riskhantering, datastyrning och rapportering för olika regelverk som BCBS 239 och MiFID II.

Också olika organisatoriska intressenter (kunder, anställda och revisorer) måste kunna förstå och lita på rapporterade data. Datalinjering ger bevis för att de data som tillhandahålls återspeglas korrekt.

Datastyrning

En automatiserad lösning för datalinjering sammanfogar metadata för att förstå och validera dataanvändning, samt för att minska de tillhörande riskerna.

Den kan automatiskt dokumentera datahistoriken från början till slut i uppströms- och nedströmsledet och avslöja alla ändringar som har gjorts, av vem och när.

Denna äganderätt, ansvarsskyldighet och spårbarhet för data är grundläggande för ett bra datastyrningsprogram.

Visa: Fördelarna med datastyrning

Samarbete

Analys och rapportering är databeroende, vilket gör att samarbete mellan olika affärsgrupper och/eller avdelningar är avgörande.

Visualiseringen av datalinjering kan hjälpa affärsanvändare att upptäcka de inneboende kopplingarna i dataflöden och på så sätt ge större transparens och granskningsbarhet.

Att se datapipelines och informationsflöden stödjer ytterligare efterlevnadsarbetet.

Datakvalitet

Datakvaliteten påverkas av datans förflyttning, omvandling, tolkning och urval genom människor, processer och teknik.

Rotorsaksanalys är det första steget för att reparera datakvaliteten. När en datasteward har fastställt var en datafel har introducerats kan orsaken till felet fastställas.

Med datalinjering och kartläggning kan datastewarden spåra informationsflödet bakåt för att undersöka de standardiseringar och omvandlingar som tillämpats för att bekräfta om de har utförts på rätt sätt.

Se datalinjering i praktiken

Verktyg för datalinjering dokumenterar dataflödet in i och ut ur en organisations system. De fångar upp data från början till slut och säkerställer att korrekta konsekvensanalyser kan utföras i händelse av problem eller ändringar av datatillgångar när de rör sig genom pipelines.

Den erwin Data Intelligence Suite (erwin DI) genererar automatiskt data från början till slut, ända ner till kolumnnivå och mellan arkiv. Du kan se dataflöden från källsystem till rapporteringslagren, inklusive mellanliggande omvandling och affärslogik.

Slut dig till nästa live-demo av erwin Data Intelligence (DI) för att se metadatadriven, automatiserad datalinjering i praktiken.

Lämna ett svar

Din e-postadress kommer inte publiceras.