Che cos’è il Data Lineage e perché è importante?
Il data lineage è il viaggio dei dati dalla loro creazione attraverso le loro trasformazioni nel tempo. Descrive l’origine, il movimento, le caratteristiche e la qualità di un certo set di dati.
Tracciare l’origine dei dati è un compito arduo.
Molte grandi organizzazioni, nel loro desiderio di modernizzarsi con la tecnologia, hanno acquisito diversi sistemi con vari punti di ingresso dei dati e regole di trasformazione dei dati mentre si spostano all’interno e attraverso l’organizzazione.
Questi strumenti vanno da prodotti ESB (Enterprise Service Bus), strumenti di integrazione dei dati, strumenti di estrazione, trasformazione e caricamento (ETL), codice procedurale, interfacce di programmi applicativi (API), processi FTP (File Transfer Protocol) e persino rapporti di business intelligence (BI) che aggregano e trasformano ulteriormente i dati.
Con tutte queste diverse fonti di dati, e se i sistemi sono integrati, è difficile capire la complicata rete di dati che formano, tanto meno ottenere un semplice flusso visivo. Questo è il motivo per cui il lignaggio dei dati deve essere tracciato e perché il suo ruolo è così vitale per le operazioni di business, fornendo la capacità di capire dove i dati hanno origine, come vengono trasformati e come si muovono dentro, attraverso e fuori una data organizzazione.
Data Lineage Use Case: Dal rintracciare le origini del COVID-19 al business guidato dai dati
Sono emerse molte teorie sull’origine del coronavirus. Un recente studio della University of California San Francisco (UCSF) ha condotto un’analisi genetica del COVID-19 per determinare come il virus sia stato introdotto specificamente nella Bay Area californiana.
Ha rilevato almeno otto diversi lignaggi virali in 29 pazienti in febbraio e all’inizio di marzo, suggerendo che non ci sia un paziente zero regionale ma piuttosto molteplici introduzioni indipendenti del patogeno. Il professore che ha diretto lo studio ha detto, “è come scintille che entrano in California da varie fonti, causando molteplici incendi”.”
Come la comprensione del lignaggio virale è la chiave per fermare questa e altre potenziali pandemie, la comprensione dell’origine dei dati, è la chiave per un business di successo guidato dai dati.
Top Five Data Lineage Benefits
Dalla mia prospettiva di lavoro con clienti di varie dimensioni in diversi settori, vorrei evidenziare cinque benefici del data lineage:
Business Impact
I dati sono fondamentali per la sopravvivenza di ogni organizzazione. Per questo motivo, le aziende devono pensare al flusso di dati attraverso più sistemi che alimentano il processo decisionale organizzativo.
Per esempio, il dipartimento di marketing usa i dati demografici e il comportamento dei clienti per prevedere le vendite. Anche il CEO prende decisioni basate sulle statistiche di performance e di crescita. Una comprensione delle origini e della storia dei dati aiuta a rispondere alle domande sull’origine dei dati in un report KPI (Key Performance Indicator), tra cui:
- Come sono definite le tabelle e le colonne del report nei metadati?
- Chi sono i proprietari dei dati?
- Quali sono le regole di trasformazione?
Senza il lignaggio dei dati, queste funzioni sono irrilevanti, quindi ha senso per un’azienda avere una chiara comprensione della provenienza dei dati, chi li usa e come si trasformano. Inoltre, quando c’è un cambiamento nell’ambiente, è importante valutare gli impatti sul panorama delle applicazioni aziendali.
Nel caso di un cambiamento nelle aspettative dei dati, il lineage dei dati fornisce un modo per determinare quali applicazioni e processi a valle sono interessati dal cambiamento e aiuta nella pianificazione degli aggiornamenti delle applicazioni.
Compliance & Auditability
I termini aziendali e le politiche dei dati dovrebbero essere implementati attraverso regole aziendali standardizzate e documentate. La conformità a queste regole aziendali può essere tracciata attraverso il lineage dei dati, incorporando controlli di verificabilità e convalida attraverso le trasformazioni dei dati e le pipeline per generare avvisi quando ci sono istanze di dati non conformi.
La conformità normativa impone alle aziende maggiori requisiti di trasparenza quando si tratta di tracciare e controllare i dati. Per esempio, le società di trading dei mercati dei capitali devono comprendere le origini e la storia dei loro dati per supportare la gestione del rischio, la governance dei dati e il reporting per varie normative come BCBS 239 e MiFID II.
Inoltre, diversi stakeholder organizzativi (clienti, dipendenti e revisori) devono essere in grado di comprendere e fidarsi dei dati riportati. Il lineage dei dati offre la prova che i dati forniti si riflettono accuratamente.
Data Governance
Una soluzione automatizzata di lineage dei dati mette insieme i metadati per comprendere e convalidare l’uso dei dati, oltre a mitigare i rischi associati.
Può auto-documentare il lineage dei dati end-to-end a monte e a valle, rivelando tutte le modifiche che sono state fatte, da chi e quando.
Questa proprietà, responsabilità e tracciabilità dei dati è fondamentale per un buon programma di governance dei dati.
Vedi: I benefici della governance dei dati
Collaborazione
L’analitica e il reporting dipendono dai dati, rendendo cruciale la collaborazione tra diversi gruppi aziendali e/o dipartimenti.
La visualizzazione del lineage dei dati può aiutare gli utenti aziendali a individuare le connessioni intrinseche dei flussi di dati e quindi fornire maggiore trasparenza e verificabilità.
Vedere le condutture di dati e i flussi di informazioni supporta ulteriormente gli sforzi di conformità.
Qualità dei dati
La qualità dei dati è influenzata dal movimento, dalla trasformazione, dall’interpretazione e dalla selezione dei dati attraverso le persone, i processi e la tecnologia.
L’analisi delle cause principali è il primo passo per riparare la qualità dei dati. Una volta che il data steward determina dove è stato introdotto un difetto nei dati, è possibile determinare la ragione dell’errore.
Con il data lineage e la mappatura, il data steward può tracciare il flusso di informazioni a ritroso per esaminare le standardizzazioni e le trasformazioni applicate per confermare se sono state eseguite correttamente.
Vedi il data lineage in azione
Gli strumenti di data lineage documentano il flusso di dati in entrata e in uscita dai sistemi dell’organizzazione. Essi catturano il lineage end-to-end e garantiscono l’esecuzione di un’adeguata analisi dell’impatto in caso di problemi o modifiche alle risorse di dati durante il loro spostamento attraverso le pipeline.
La erwin Data Intelligence Suite (erwin DI) genera automaticamente il lineage dei dati end-to-end, fino al livello di colonna e tra i repository. È possibile visualizzare i flussi di dati dai sistemi di origine ai livelli di reporting, comprese le trasformazioni intermedie e la logica di business.
Vi invitiamo a partecipare alla prossima demo dal vivo di erwin Data Intelligence (DI) per vedere il lineage dei dati automatizzato e guidato dai metadati in azione.