Co je Data Lineage a proč je důležitá?
Data lineage je cesta, kterou data absolvují od svého vzniku přes transformace v čase. Popisuje původ, pohyb, vlastnosti a kvalitu určité datové sady.
Zjistit zdroj dat je náročný úkol.
Mnoho velkých organizací si v touze po modernizaci pomocí technologií pořídilo několik různých systémů s různými vstupními body a pravidly transformace dat při jejich pohybu do organizace a napříč ní.
Tyto nástroje zahrnují produkty sběrnice podnikových služeb (ESB), nástroje pro integraci dat; nástroje pro extrakci, transformaci a načítání (ETL), procedurální kód, aplikační programová rozhraní (API), procesy protokolu pro přenos souborů (FTP) a dokonce i zprávy business intelligence (BI), které dále agregují a transformují data.
Se všemi těmito různorodými zdroji dat, a pokud jsou systémy integrovány, je obtížné pochopit složitou datovou síť, kterou tvoří, natož získat jednoduchý vizuální tok. To je důvod, proč je třeba sledovat lineage dat a proč je její role pro obchodní operace tak zásadní, protože poskytuje možnost pochopit, odkud data pocházejí, jak jsou transformována a jak se pohybují do dané organizace, napříč ní i mimo ni.
Případ užití lineage dat: Od sledování původu viru COVID-19 k podnikání řízenému daty
O původu koronaviru se objevilo mnoho teorií. Nedávná studie Kalifornské univerzity v San Francisku (UCSF) provedla genetickou analýzu viru COVID-19, aby zjistila, jakým způsobem byl virus zavlečen konkrétně do oblasti Kalifornského zálivu.
Zjistila nejméně osm různých linií viru u 29 pacientů v únoru a na začátku března, což naznačuje, že se nejedná o žádného regionálního pacienta nula, ale spíše o více nezávislých zavlečení patogenu. Profesor, který studii řídil, řekl: „Je to jako jiskry, které se do Kalifornie dostaly z různých zdrojů a způsobily několik požárů.“
Stejně jako je pochopení virové linie klíčem k zastavení této a dalších potenciálních pandemií, je pochopení původu dat, klíčem k úspěšnému podnikání založenému na datech.
Top Five Data Lineage Benefits
Z mého pohledu na práci se zákazníky různých velikostí z různých odvětví bych rád vyzdvihl pět výhod datové linie:
Vliv na podnikání
Data jsou klíčová pro přežití každé organizace. Z tohoto důvodu musí podniky přemýšlet o toku dat napříč různými systémy, které podporují rozhodování organizace.
Například marketingové oddělení využívá demografické údaje a chování zákazníků k předpovídání prodeje. Generální ředitel se také rozhoduje na základě statistik výkonnosti a růstu. Pochopení původu a historie dat pomáhá odpovědět na otázky týkající se původu dat v sestavách klíčových ukazatelů výkonnosti (KPI), včetně:
- Jak jsou v metadatech definovány tabulky a sloupce sestavy?
- Kdo jsou vlastníci dat?
- Jaká jsou transformační pravidla?
Bez datové linie jsou tyto funkce irelevantní, takže pro podnik má smysl mít jasnou představu o tom, odkud data pocházejí, kdo je používá a jak se transformují. Také v případě změny prostředí je cenné posoudit dopady na prostředí podnikových aplikací.
V případě změny očekávání ohledně dat poskytuje datová linie způsob, jak určit, kterých navazujících aplikací a procesů se změna týká, a pomáhá při plánování aktualizací aplikací.
Soulad &Auditovatelnost
Podnikové podmínky a datové zásady by měly být implementovány prostřednictvím standardizovaných a dokumentovaných podnikových pravidel. Soulad s těmito obchodními pravidly lze sledovat prostřednictvím datové linie, začleněním kontrol auditovatelnosti a validace napříč datovými transformacemi a produktovody, aby bylo možné generovat výstrahy v případě výskytu nevyhovujících datových instancí.
Soulad s předpisy klade na firmy větší nároky na transparentnost, pokud jde o sledování a audit dat. Například firmy obchodující na kapitálových trzích musí rozumět původu a historii svých dat, aby podpořily řízení rizik, správu dat a výkaznictví pro různé regulace, jako jsou BCBS 239 a MiFID II.
Různé zainteresované strany organizace (zákazníci, zaměstnanci a auditoři) také musí být schopny porozumět vykazovaným datům a důvěřovat jim. Lineage dat nabízí důkaz, že poskytovaná data jsou reflektována přesně.
Data Governance
Automatické řešení pro lineage dat sešívá metadata pro pochopení a ověření použití dat a také pro zmírnění souvisejících rizik.
Může automaticky dokumentovat end-to-end upstream a downstream lineage dat a odhalit všechny změny, které byly provedeny, kým a kdy.
Toto vlastnictví dat, odpovědnost a sledovatelnost je základem zdravého programu správy dat.
Viz: Přínosy správy dat
Spolupráce
Analytika a reporting jsou závislé na datech, takže spolupráce mezi různými podnikovými skupinami a/nebo odděleními je klíčová.
Vizualizace datové linie může podnikovým uživatelům pomoci odhalit neodmyslitelné souvislosti datových toků a zajistit tak větší transparentnost a auditovatelnost.
Zobrazení datových linií a informačních toků dále podporuje úsilí o dodržování předpisů.
Kvalita dat
Kvalitu dat ovlivňuje jejich pohyb, transformace, interpretace a výběr prostřednictvím lidí, procesů a technologií.
Prvním krokem k nápravě kvality dat je analýza příčin. Jakmile správce dat zjistí, kde se v datech vyskytla chyba, může určit její příčinu.
Pomocí datové linie a mapování může správce dat sledovat tok informací zpětně, aby prozkoumal použité standardizace a transformace a potvrdil, zda byly provedeny správně.
Podívejte se na Data Lineage in Action
Nástroje datové linie dokumentují tok dat do systémů organizace a z nich. Zachycují end-to-end lineage a zajišťují, aby bylo možné provést správnou analýzu dopadů v případě problémů nebo změn datových prostředků při jejich pohybu napříč produktovody.
Sada erwin Data Intelligence Suite (erwin DI) automaticky generuje end-to-end lineage dat až na úroveň sloupců a mezi úložišti. Můžete si prohlédnout datové toky ze zdrojových systémů do vrstev reportingu, včetně mezilehlé transformace a obchodní logiky.
Přijďte se podívat na další živou ukázku sady erwin Data Intelligence (DI) a uvidíte automatizovaný lineage dat řízený metadaty v akci.
.