What is Data Lineage and Why is it Important?
Data lineage to droga, jaką pokonują dane od momentu ich utworzenia poprzez ich transformacje w czasie. Opisuje pochodzenie, ruch, charakterystykę i jakość określonego zbioru danych.
Śledzenie źródła danych jest żmudnym zadaniem.
Wiele dużych organizacji, w swoim dążeniu do unowocześnienia technologicznego, nabyło kilka różnych systemów z różnymi punktami wprowadzania danych i regułami transformacji danych w miarę ich przepływu do i przez organizację.
Narzędzia te obejmują produkty typu Enterprise Service Bus (ESB), narzędzia do integracji danych; narzędzia do ekstrakcji, transformacji i ładowania (ETL), kod proceduralny, interfejsy programów aplikacyjnych (API), procesy protokołu transferu plików (FTP), a nawet raporty Business Intelligence (BI), które dodatkowo agregują i przekształcają dane.
W przypadku wszystkich tych różnorodnych źródeł danych, a także jeśli systemy są zintegrowane, trudno jest zrozumieć skomplikowaną sieć danych, którą tworzą, a tym bardziej uzyskać prosty wizualny przepływ. Dlatego właśnie należy śledzić przebieg danych i dlatego jego rola jest tak istotna dla operacji biznesowych, zapewniając możliwość zrozumienia, skąd pochodzą dane, jak są przekształcane i jak przemieszczają się do, przez i poza daną organizację.
Data Lineage Use Case: From Tracing COVID-19’s Origins to Data-Driven Business
Na temat pochodzenia koronawirusa powstało wiele teorii. Ostatnie badanie przeprowadzone przez Uniwersytet Kalifornijski w San Francisco (UCSF) polegało na analizie genetycznej wirusa COVID-19 w celu ustalenia, w jaki sposób został on wprowadzony do kalifornijskiego Bay Area.
Wykryło ono co najmniej osiem różnych linii wirusowych u 29 pacjentów w lutym i na początku marca, co sugeruje, że nie było to regionalne zero pacjentów, ale raczej wiele niezależnych wprowadzeń patogenu. Profesor, który kierował badaniem, powiedział: „to jak iskry dostające się do Kalifornii z różnych źródeł, powodujące wiele pożarów.”
Podobnie jak zrozumienie linii wirusów jest kluczem do zatrzymania tej i innych potencjalnych pandemii, zrozumienie pochodzenia danych jest kluczem do udanego biznesu opartego na danych.
Top Five Data Lineage Benefits
Z mojej perspektywy pracy z klientami różnej wielkości w wielu branżach, chciałbym podkreślić pięć korzyści wynikających z linii danych:
Business Impact
Dane są kluczowe dla przetrwania każdej organizacji. Z tego powodu firmy muszą myśleć o przepływie danych przez wiele systemów, które napędzają podejmowanie decyzji organizacyjnych.
Na przykład dział marketingu wykorzystuje dane demograficzne i zachowania klientów do prognozowania sprzedaży. Dyrektor generalny również podejmuje decyzje w oparciu o statystyki dotyczące wydajności i wzrostu. Zrozumienie pochodzenia i historii danych pomaga odpowiedzieć na pytania o pochodzenie danych w raportach Key Performance Indicator (KPI), w tym:
- Jak tabele i kolumny raportu są zdefiniowane w metadanych?
- Kto jest właścicielem danych?
- Jakie są reguły transformacji?
Bez pochodzenia danych funkcje te są nieistotne, dlatego sensowne jest, aby firma miała jasne zrozumienie, skąd pochodzą dane, kto ich używa i jak się przekształcają. Ponadto w przypadku zmiany środowiska cenna jest ocena wpływu na środowisko aplikacji przedsiębiorstwa.
W przypadku zmiany oczekiwań dotyczących danych powiązanie danych zapewnia sposób określenia, na które aplikacje i procesy niższego szczebla ma wpływ zmiana, i pomaga w planowaniu aktualizacji aplikacji.
Zgodność &Audytowalność
Pojęcia biznesowe i polityki dotyczące danych powinny być wdrażane za pomocą znormalizowanych i udokumentowanych reguł biznesowych. Zgodność z tymi regułami biznesowymi może być śledzona poprzez linię pochodzenia danych, włączając kontrolę audytowalności i walidacji w transformacjach danych i potokach, aby generować alerty w przypadku niezgodnych instancji danych.
Zgodność z przepisami nakłada na firmy większe wymagania w zakresie przejrzystości, jeśli chodzi o śledzenie i audyt danych. Na przykład firmy zajmujące się obrotem na rynkach kapitałowych muszą rozumieć pochodzenie i historię swoich danych, aby wspierać zarządzanie ryzykiem, zarządzanie danymi i raportowanie na potrzeby różnych regulacji, takich jak BCBS 239 i MiFID II.
Różni interesariusze organizacyjni (klienci, pracownicy i audytorzy) muszą również być w stanie zrozumieć i zaufać raportowanym danym. Zarządzanie danymi
Zautomatyzowane rozwiązanie do zarządzania linią danych łączy metadane w celu zrozumienia i sprawdzenia poprawności wykorzystania danych, a także ograniczenia powiązanego ryzyka.
Ta własność danych, odpowiedzialność i identyfikowalność jest podstawą solidnego programu zarządzania danymi.
Zobacz: The Benefits of Data Governance
Collaboration
Analityka i raportowanie są zależne od danych, co sprawia, że współpraca między różnymi grupami biznesowymi i/lub działami ma kluczowe znaczenie.
Wizualizacja przebiegu danych może pomóc użytkownikom biznesowym dostrzec nieodłączne powiązania przepływów danych, a tym samym zapewnić większą przejrzystość i możliwość kontroli.
Widoczność potoków danych i przepływów informacji dodatkowo wspiera wysiłki związane ze zgodnością.
Jakość danych
Na jakość danych wpływa ich przepływ, transformacja, interpretacja i selekcja przez ludzi, procesy i technologie.
Analiza przyczyn źródłowych jest pierwszym krokiem w naprawie jakości danych. Gdy administrator danych określi, gdzie wprowadzono błąd w danych, można ustalić przyczynę tego błędu.
Dzięki liniowości i mapowaniu danych administrator danych może prześledzić przepływ informacji wstecz, aby zbadać zastosowane standaryzacje i transformacje w celu potwierdzenia, czy zostały one wykonane prawidłowo.
Zobacz liniowość danych w działaniu
Narzędzia liniowości danych dokumentują przepływ danych do i z systemów organizacji. Umożliwiają one uchwycenie przepływu danych od początku do końca i zapewniają możliwość przeprowadzenia właściwej analizy wpływu w przypadku problemów lub zmian w zasobach danych, które są przenoszone przez rurociągi.
Pakiet erwin Data Intelligence Suite (erwin DI) automatycznie generuje przepływ danych od początku do końca, aż do poziomu kolumn i pomiędzy repozytoriami. Można przeglądać przepływy danych od systemów źródłowych do warstw raportowania, w tym pośrednie transformacje i logikę biznesową.
Dołącz do nas na następnej demonstracji na żywo erwin Data Intelligence (DI), aby zobaczyć w działaniu zautomatyzowany, oparty na metadanych lineaż danych.
.