Qu’est-ce que le data lineage et pourquoi est-il important ?
Le data lineage est le parcours des données depuis leur création jusqu’à leurs transformations au fil du temps. Il décrit l’origine, le mouvement, les caractéristiques et la qualité d’un certain ensemble de données.
Tracer la source des données est une tâche ardue.
Plusieurs grandes organisations, dans leur désir de se moderniser avec la technologie, ont acquis plusieurs systèmes différents avec divers points d’entrée de données et des règles de transformation pour les données lorsqu’elles se déplacent dans et à travers l’organisation.
Ces outils vont des produits de bus de service d’entreprise (ESB), des outils d’intégration de données ; des outils d’extraction, de transformation et de chargement (ETL), du code procédural, des interfaces de programme d’application (API)s, des processus de protocole de transfert de fichiers (FTP), et même des rapports de business intelligence (BI) qui agrégent et transforment davantage les données.
Avec toutes ces sources de données diverses, et si les systèmes sont intégrés, il est difficile de comprendre le réseau de données compliqué qu’elles forment et encore moins d’obtenir un flux visuel simple. C’est pourquoi le lignage des données doit être suivi et pourquoi son rôle est si vital pour les opérations commerciales, offrant la possibilité de comprendre d’où proviennent les données, comment elles sont transformées et comment elles se déplacent dans, à travers et en dehors d’une organisation donnée.
Cas d’utilisation du lignage des données : Du traçage des origines de COVID-19 à l’entreprise axée sur les données
De nombreuses théories ont émergé sur l’origine du coronavirus. Une récente étude de l’Université de Californie San Francisco (UCSF) a effectué une analyse génétique du COVID-19 pour déterminer comment le virus a été introduit spécifiquement dans la région de la baie de Californie.
Elle a détecté au moins huit lignées virales différentes chez 29 patients en février et début mars, ce qui suggère qu’il n’y a pas de patient zéro régional mais plutôt de multiples introductions indépendantes de l’agent pathogène. Le professeur qui a dirigé l’étude a déclaré : « c’est comme des étincelles qui entrent en Californie à partir de diverses sources, provoquant de multiples feux de forêt. »
De même que la compréhension de la lignée virale est essentielle pour arrêter cette pandémie et d’autres pandémies potentielles, la compréhension de l’origine des données, est la clé d’une entreprise réussie axée sur les données.
Les cinq principaux avantages du lignage des données
De mon point de vue en travaillant avec des clients de différentes tailles dans de multiples industries, j’aimerais souligner cinq avantages du lignage des données :
L’impact sur les affaires
Les données sont cruciales pour la survie de chaque organisation. Pour cette raison, les entreprises doivent penser au flux de données à travers de multiples systèmes qui alimentent la prise de décision organisationnelle.
Par exemple, le département marketing utilise les données démographiques et le comportement des clients pour prévoir les ventes. Le PDG prend également des décisions sur la base des statistiques de performance et de croissance. La compréhension de l’origine et de l’historique des données permet de répondre aux questions sur l’origine des données dans un rapport d’indicateurs clés de performance (ICP), notamment :
- Comment les tables et les colonnes du rapport sont définies dans les métadonnées ?
- Qui sont les propriétaires des données ?
- Quelles sont les règles de transformation?
Sans le lignage des données, ces fonctions ne sont pas pertinentes, il est donc logique pour une entreprise de bien comprendre d’où viennent les données, qui les utilise et comment elles se transforment. De plus, en cas de modification de l’environnement, il est précieux d’évaluer les impacts sur le paysage applicatif de l’entreprise.
En cas de modification des attentes en matière de données, le lignage des données permet de déterminer quelles applications et quels processus en aval sont affectés par la modification et aide à planifier les mises à jour des applications.
Compliance &Auditabilité
Les termes commerciaux et les politiques de données doivent être mis en œuvre par le biais de règles commerciales normalisées et documentées. La conformité à ces règles métier peut être suivie par le biais du lignage des données, en intégrant des contrôles d’auditabilité et de validation à travers les transformations de données et les pipelines afin de générer des alertes en cas d’instances de données non conformes.
La conformité réglementaire impose aux entreprises des exigences de transparence accrues en matière de traçage et d’audit des données. Par exemple, les entreprises de négociation sur les marchés de capitaux doivent comprendre l’origine et l’historique de leurs données pour prendre en charge la gestion des risques, la gouvernance des données et le reporting pour diverses réglementations telles que BCBS 239 et MiFID II.
De plus, les différentes parties prenantes de l’organisation (clients, employés et auditeurs) doivent être en mesure de comprendre et de faire confiance aux données rapportées. Le lignage des données offre la preuve que les données fournies sont reflétées avec exactitude.
Gouvernance des données
Une solution automatisée de lignage des données suture les métadonnées pour comprendre et valider l’utilisation des données, ainsi que pour atténuer les risques associés.
Elle peut auto-documenter de bout en bout le lignage des données en amont et en aval, en révélant toutes les modifications qui ont été apportées, par qui et quand.
Cette propriété, cette responsabilité et cette traçabilité des données sont fondamentales pour un programme de gouvernance des données solide.
Voir : Les avantages de la gouvernance des données
Collaboration
L’analyse et le reporting sont dépendants des données, ce qui rend la collaboration entre les différents groupes d’affaires et/ou départements cruciale.
La visualisation du lignage des données peut aider les utilisateurs professionnels à repérer les connexions inhérentes aux flux de données et ainsi offrir une plus grande transparence et une meilleure auditabilité.
Voir les pipelines de données et les flux d’informations soutient davantage les efforts de conformité.
Qualité des données
La qualité des données est affectée par le mouvement, la transformation, l’interprétation et la sélection des données à travers les personnes, les processus et la technologie.
L’analyse des causes premières est la première étape de la réparation de la qualité des données. Une fois que le data steward détermine où une faille dans les données a été introduite, la raison de l’erreur peut être déterminée.
Avec le lignage et la cartographie des données, le data steward peut retracer le flux d’informations en arrière pour examiner les normalisations et les transformations appliquées afin de confirmer si elles ont été effectuées correctement.
Voir le lignage des données en action
Les outils de lignage des données documentent le flux de données entrant et sortant des systèmes d’une organisation. Ils capturent le lignage de bout en bout et garantissent qu’une analyse d’impact appropriée peut être effectuée en cas de problèmes ou de modifications des actifs de données lorsqu’ils se déplacent dans les pipelines.
L’erwin Data Intelligence Suite (erwin DI) génère automatiquement le lignage des données de bout en bout, jusqu’au niveau des colonnes et entre les référentiels. Vous pouvez visualiser les flux de données depuis les systèmes sources jusqu’aux couches de reporting, y compris les transformations intermédiaires et la logique métier.
Rejoignez-nous pour la prochaine démonstration en direct d’erwin Data Intelligence (DI) afin de voir le lignage de données automatisé et piloté par les métadonnées en action.
.