Was ist Data Lineage? Top 5 Vorteile von Data Lineage

Was ist Data Lineage und warum ist es wichtig?

Data Lineage ist der Weg, den Daten von ihrer Erstellung bis zu ihren Transformationen im Laufe der Zeit nehmen. Sie beschreibt den Ursprung, die Bewegung, die Eigenschaften und die Qualität eines bestimmten Datensatzes.

Die Rückverfolgung der Datenquelle ist eine mühsame Aufgabe.

Viele große Unternehmen haben in ihrem Bestreben, sich mit Technologie zu modernisieren, mehrere verschiedene Systeme mit unterschiedlichen Dateneingabepunkten und Transformationsregeln für Daten erworben, die sich in und durch das Unternehmen bewegen.

Diese Tools reichen von Enterprise Service Bus (ESB)-Produkten, Datenintegrationstools, Extraktions-, Transformations- und Ladetools (ETL), prozeduralem Code, Anwendungsprogrammschnittstellen (APIs), FTP-Prozessen und sogar Business Intelligence (BI)-Berichten, die Daten weiter aggregieren und transformieren.

Bei all diesen unterschiedlichen Datenquellen und wenn die Systeme integriert sind, ist es schwierig, das komplizierte Datengeflecht zu verstehen, das sie bilden, geschweige denn einen einfachen visuellen Fluss zu erhalten. Aus diesem Grund muss die Datenherkunft verfolgt werden, und deshalb ist sie so wichtig für den Geschäftsbetrieb, da sie die Möglichkeit bietet, zu verstehen, woher die Daten stammen, wie sie umgewandelt werden und wie sie sich innerhalb, innerhalb und außerhalb einer bestimmten Organisation bewegen.

Data Lineage Use Case: Von der Rückverfolgung der Ursprünge von COVID-19 zum datengesteuerten Geschäft

Über den Ursprung des Coronavirus gibt es viele Theorien. In einer aktuellen Studie der University of California San Francisco (UCSF) wurde eine genetische Analyse von COVID-19 durchgeführt, um festzustellen, wie das Virus speziell in die kalifornische Bay Area eingeschleppt wurde.

Dabei wurden bei 29 Patienten im Februar und Anfang März mindestens acht verschiedene Virusstämme nachgewiesen, was darauf hindeutet, dass es sich nicht um einen regionalen Nullfall handelt, sondern um mehrere unabhängige Einschleppungen des Erregers. Der Professor, der die Studie leitete, sagte: „Es ist, als ob Funken aus verschiedenen Quellen nach Kalifornien eindringen und mehrere Waldbrände verursachen.“

So wie das Verständnis der viralen Abstammung der Schlüssel zum Stoppen dieser und anderer potenzieller Pandemien ist, ist das Verständnis der Herkunft von Daten der Schlüssel zu einem erfolgreichen datengesteuerten Unternehmen.

Top Five Data Lineage Benefits

Aus meiner Sicht bei der Arbeit mit Kunden verschiedener Größen und Branchen möchte ich fünf Vorteile der Datenherkunft hervorheben:

Business Impact

Daten sind für jedes Unternehmen überlebenswichtig. Aus diesem Grund müssen Unternehmen über den Datenfluss in verschiedenen Systemen nachdenken, die die Entscheidungsfindung im Unternehmen unterstützen.

Die Marketingabteilung verwendet beispielsweise demografische Daten und das Kundenverhalten, um Umsatzprognosen zu erstellen. Auch der CEO trifft Entscheidungen auf der Grundlage von Leistungs- und Wachstumsstatistiken. Ein Verständnis der Datenherkunft und -historie hilft bei der Beantwortung von Fragen zur Herkunft der Daten in einem KPI-Bericht (Key Performance Indicator), einschließlich:

  • Wie sind die Berichtstabellen und -spalten in den Metadaten definiert?
  • Wer sind die Datenbesitzer?
  • Wie lauten die Transformationsregeln?

Ohne Datenherkunft sind diese Funktionen irrelevant, daher ist es für ein Unternehmen sinnvoll, ein klares Verständnis davon zu haben, woher die Daten kommen, wer sie verwendet und wie sie transformiert werden. Bei einer Änderung der Umgebung ist es außerdem wichtig, die Auswirkungen auf die Anwendungslandschaft des Unternehmens zu bewerten.

Im Falle einer Änderung der Datenerwartungen bietet die Datenabfolge eine Möglichkeit zu bestimmen, welche nachgelagerten Anwendungen und Prozesse von der Änderung betroffen sind, und hilft bei der Planung von Anwendungsaktualisierungen.

Compliance & Auditability

Geschäftsbedingungen und Datenrichtlinien sollten durch standardisierte und dokumentierte Geschäftsregeln umgesetzt werden. Die Einhaltung dieser Geschäftsregeln kann über die Datenabfolge nachverfolgt werden, wobei Prüfbarkeit und Validierungskontrollen in Datentransformationen und Pipelines integriert werden, um Warnmeldungen zu generieren, wenn Dateninstanzen nicht konform sind.

Die Einhaltung gesetzlicher Vorschriften stellt höhere Transparenzanforderungen an Unternehmen, wenn es um die Nachverfolgung und Prüfung von Daten geht. So müssen beispielsweise Kapitalmarkthandelsunternehmen die Herkunft und den Verlauf ihrer Daten verstehen, um das Risikomanagement, die Datenverwaltung und die Berichterstattung für verschiedene Vorschriften wie BCBS 239 und MiFID II zu unterstützen.

Auch müssen die verschiedenen Interessengruppen des Unternehmens (Kunden, Mitarbeiter und Prüfer) in der Lage sein, die gemeldeten Daten zu verstehen und ihnen zu vertrauen. Data Lineage bietet den Nachweis, dass die bereitgestellten Daten korrekt wiedergegeben werden.

Data Governance

Eine automatisierte Data Lineage-Lösung fügt Metadaten zusammen, um die Datennutzung zu verstehen und zu validieren sowie die damit verbundenen Risiken zu mindern.

Sie kann die vor- und nachgelagerte Datenabfolge automatisch durchgängig dokumentieren und alle Änderungen aufzeigen, die von wem und wann vorgenommen wurden.

Dieses Dateneigentum, die Rechenschaftspflicht und die Rückverfolgbarkeit sind die Grundlage für ein solides Data-Governance-Programm.

Siehe: Die Vorteile von Data Governance

Zusammenarbeit

Analysen und Berichte sind datenabhängig, so dass die Zusammenarbeit zwischen verschiedenen Geschäftsgruppen und/oder Abteilungen von entscheidender Bedeutung ist.

Die Visualisierung der Datenabfolge kann Geschäftsanwendern dabei helfen, die inhärenten Verbindungen von Datenflüssen zu erkennen, und so für mehr Transparenz und Überprüfbarkeit sorgen.

Die Sichtbarmachung von Datenpipelines und Informationsflüssen unterstützt die Bemühungen um die Einhaltung von Vorschriften.

Datenqualität

Die Datenqualität wird durch die Bewegung, Umwandlung, Interpretation und Auswahl von Daten durch Menschen, Prozesse und Technologie beeinflusst.

Die Ursachenanalyse ist der erste Schritt zur Wiederherstellung der Datenqualität. Sobald ein Data Steward feststellt, wo ein Datenfehler entstanden ist, kann die Ursache für den Fehler ermittelt werden.

Mit Data Lineage und Mapping kann der Data Steward den Informationsfluss zurückverfolgen, um die angewandten Standardisierungen und Transformationen zu untersuchen und zu bestätigen, ob sie korrekt durchgeführt wurden.

See Data Lineage in Action

Data Lineage Tools dokumentieren den Datenfluss in und aus den Systemen eines Unternehmens. Sie erfassen die durchgängige Datenkette und stellen sicher, dass im Falle von Problemen oder Änderungen an Datenbeständen, die über Pipelines verschoben werden, eine angemessene Auswirkungsanalyse durchgeführt werden kann.

Die erwin Data Intelligence Suite (erwin DI) generiert automatisch eine durchgängige Datenkette, bis hinunter zur Spaltenebene und zwischen Repositories. Sie können die Datenflüsse von den Quellsystemen bis zu den Berichtsebenen anzeigen, einschließlich der Zwischentransformation und der Geschäftslogik.

Begleiten Sie uns zur nächsten Live-Demo von erwin Data Intelligence (DI) und sehen Sie sich die metadatengesteuerte, automatisierte Data Lineage in Aktion an.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.