Co to jest liniowość danych? Top 5 Benefits of Data Lineage

What is Data Lineage and Why is it Important?

Data lineage to droga, jaką pokonują dane od momentu ich utworzenia poprzez ich transformacje w czasie. Opisuje pochodzenie, ruch, charakterystykę i jakość określonego zbioru danych.

Śledzenie źródła danych jest żmudnym zadaniem.

Wiele dużych organizacji, w swoim dążeniu do unowocześnienia technologicznego, nabyło kilka różnych systemów z różnymi punktami wprowadzania danych i regułami transformacji danych w miarę ich przepływu do i przez organizację.

Narzędzia te obejmują produkty typu Enterprise Service Bus (ESB), narzędzia do integracji danych; narzędzia do ekstrakcji, transformacji i ładowania (ETL), kod proceduralny, interfejsy programów aplikacyjnych (API), procesy protokołu transferu plików (FTP), a nawet raporty Business Intelligence (BI), które dodatkowo agregują i przekształcają dane.

W przypadku wszystkich tych różnorodnych źródeł danych, a także jeśli systemy są zintegrowane, trudno jest zrozumieć skomplikowaną sieć danych, którą tworzą, a tym bardziej uzyskać prosty wizualny przepływ. Dlatego właśnie należy śledzić przebieg danych i dlatego jego rola jest tak istotna dla operacji biznesowych, zapewniając możliwość zrozumienia, skąd pochodzą dane, jak są przekształcane i jak przemieszczają się do, przez i poza daną organizację.

Data Lineage Use Case: From Tracing COVID-19’s Origins to Data-Driven Business

Na temat pochodzenia koronawirusa powstało wiele teorii. Ostatnie badanie przeprowadzone przez Uniwersytet Kalifornijski w San Francisco (UCSF) polegało na analizie genetycznej wirusa COVID-19 w celu ustalenia, w jaki sposób został on wprowadzony do kalifornijskiego Bay Area.

Wykryło ono co najmniej osiem różnych linii wirusowych u 29 pacjentów w lutym i na początku marca, co sugeruje, że nie było to regionalne zero pacjentów, ale raczej wiele niezależnych wprowadzeń patogenu. Profesor, który kierował badaniem, powiedział: „to jak iskry dostające się do Kalifornii z różnych źródeł, powodujące wiele pożarów.”

Podobnie jak zrozumienie linii wirusów jest kluczem do zatrzymania tej i innych potencjalnych pandemii, zrozumienie pochodzenia danych jest kluczem do udanego biznesu opartego na danych.

Top Five Data Lineage Benefits

Z mojej perspektywy pracy z klientami różnej wielkości w wielu branżach, chciałbym podkreślić pięć korzyści wynikających z linii danych:

Business Impact

Dane są kluczowe dla przetrwania każdej organizacji. Z tego powodu firmy muszą myśleć o przepływie danych przez wiele systemów, które napędzają podejmowanie decyzji organizacyjnych.

Na przykład dział marketingu wykorzystuje dane demograficzne i zachowania klientów do prognozowania sprzedaży. Dyrektor generalny również podejmuje decyzje w oparciu o statystyki dotyczące wydajności i wzrostu. Zrozumienie pochodzenia i historii danych pomaga odpowiedzieć na pytania o pochodzenie danych w raportach Key Performance Indicator (KPI), w tym:

  • Jak tabele i kolumny raportu są zdefiniowane w metadanych?
  • Kto jest właścicielem danych?
  • Jakie są reguły transformacji?

Bez pochodzenia danych funkcje te są nieistotne, dlatego sensowne jest, aby firma miała jasne zrozumienie, skąd pochodzą dane, kto ich używa i jak się przekształcają. Ponadto w przypadku zmiany środowiska cenna jest ocena wpływu na środowisko aplikacji przedsiębiorstwa.

W przypadku zmiany oczekiwań dotyczących danych powiązanie danych zapewnia sposób określenia, na które aplikacje i procesy niższego szczebla ma wpływ zmiana, i pomaga w planowaniu aktualizacji aplikacji.

Zgodność &Audytowalność

Pojęcia biznesowe i polityki dotyczące danych powinny być wdrażane za pomocą znormalizowanych i udokumentowanych reguł biznesowych. Zgodność z tymi regułami biznesowymi może być śledzona poprzez linię pochodzenia danych, włączając kontrolę audytowalności i walidacji w transformacjach danych i potokach, aby generować alerty w przypadku niezgodnych instancji danych.

Zgodność z przepisami nakłada na firmy większe wymagania w zakresie przejrzystości, jeśli chodzi o śledzenie i audyt danych. Na przykład firmy zajmujące się obrotem na rynkach kapitałowych muszą rozumieć pochodzenie i historię swoich danych, aby wspierać zarządzanie ryzykiem, zarządzanie danymi i raportowanie na potrzeby różnych regulacji, takich jak BCBS 239 i MiFID II.

Różni interesariusze organizacyjni (klienci, pracownicy i audytorzy) muszą również być w stanie zrozumieć i zaufać raportowanym danym. Zarządzanie danymi

Zautomatyzowane rozwiązanie do zarządzania linią danych łączy metadane w celu zrozumienia i sprawdzenia poprawności wykorzystania danych, a także ograniczenia powiązanego ryzyka.

Ta własność danych, odpowiedzialność i identyfikowalność jest podstawą solidnego programu zarządzania danymi.

Zobacz: The Benefits of Data Governance

Collaboration

Analityka i raportowanie są zależne od danych, co sprawia, że współpraca między różnymi grupami biznesowymi i/lub działami ma kluczowe znaczenie.

Wizualizacja przebiegu danych może pomóc użytkownikom biznesowym dostrzec nieodłączne powiązania przepływów danych, a tym samym zapewnić większą przejrzystość i możliwość kontroli.

Widoczność potoków danych i przepływów informacji dodatkowo wspiera wysiłki związane ze zgodnością.

Jakość danych

Na jakość danych wpływa ich przepływ, transformacja, interpretacja i selekcja przez ludzi, procesy i technologie.

Analiza przyczyn źródłowych jest pierwszym krokiem w naprawie jakości danych. Gdy administrator danych określi, gdzie wprowadzono błąd w danych, można ustalić przyczynę tego błędu.

Dzięki liniowości i mapowaniu danych administrator danych może prześledzić przepływ informacji wstecz, aby zbadać zastosowane standaryzacje i transformacje w celu potwierdzenia, czy zostały one wykonane prawidłowo.

Zobacz liniowość danych w działaniu

Narzędzia liniowości danych dokumentują przepływ danych do i z systemów organizacji. Umożliwiają one uchwycenie przepływu danych od początku do końca i zapewniają możliwość przeprowadzenia właściwej analizy wpływu w przypadku problemów lub zmian w zasobach danych, które są przenoszone przez rurociągi.

Pakiet erwin Data Intelligence Suite (erwin DI) automatycznie generuje przepływ danych od początku do końca, aż do poziomu kolumn i pomiędzy repozytoriami. Można przeglądać przepływy danych od systemów źródłowych do warstw raportowania, w tym pośrednie transformacje i logikę biznesową.

Dołącz do nas na następnej demonstracji na żywo erwin Data Intelligence (DI), aby zobaczyć w działaniu zautomatyzowany, oparty na metadanych lineaż danych.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.