Mitä on Data Lineage? Top 5 Benefits of Data Lineage

Mitä on data lineage ja miksi se on tärkeää?

Data lineage on matka, jonka data kulkee sen luomisesta sen muunnosten kautta ajan kuluessa. Se kuvaa tietyn tietokokonaisuuden alkuperää, liikkumista, ominaisuuksia ja laatua.

Datan alkuperän jäljittäminen on työläs tehtävä.

Monet suuret organisaatiot ovat halutessaan modernisoitua tekniikan avulla hankkineet useita eri järjestelmiä, joissa on erilaisia datan syöttöpisteitä ja muunnossääntöjä datan siirtyessä organisaatioon ja sen läpi.

Nämä työkalut vaihtelevat yrityspalveluväylätuotteista (Enterprise Service Bus, ESB), tietojen integrointityökaluista; ETL-työkaluista (Extract, Transform and Load, ETL), proseduraalisesta koodista, sovellusohjelmaliitännöistä (Application Program Interface, API), tiedostojen siirtoprotokollaprosesseista (File Transfer Protocol, FTP) ja jopa BI-raporteista, jotka aggregoivat ja muuntavat tietoja edelleen.

Kun kaikki nämä erilaiset tietolähteet ovat integroituja, on vaikea ymmärtää niiden muodostamaa monimutkaista tietoverkkoa, saati saada yksinkertaista visuaalista virtausta. Siksi datan kulkua on seurattava ja siksi sen rooli on niin elintärkeä liiketoiminnalle, sillä se antaa mahdollisuuden ymmärtää, mistä data on peräisin, miten sitä muunnetaan ja miten se liikkuu organisaatioon, sen sisällä, sen läpi ja sen ulkopuolella.

Data Lineage Use Case: From Tracing COVID-19’s Origins to Data-Driven Business

Koronaviruksen alkuperästä on esitetty paljon teorioita. Kalifornian yliopiston San Franciscon (UCSF) tuoreessa tutkimuksessa tehtiin COVID-19:n geneettinen analyysi sen selvittämiseksi, miten virus kulkeutui nimenomaan Kalifornian lahden alueelle.

Siinä havaittiin ainakin kahdeksan erilaista viruslinjaa 29 potilaassa helmi-maaliskuussa ja maaliskuun alussa, mikä viittaa siihen, että kyseessä ei ollut mikään alueellinen potilasnolla, vaan pikemminkin useat toisistaan riippumattomat taudinaiheuttajan kulkeutumiset. Tutkimusta johtanut professori sanoi: ”Se on kuin kipinöitä, jotka tulevat Kaliforniaan eri lähteistä ja aiheuttavat useita maastopaloja.”

Vaikka viruksen linjan ymmärtäminen on avainasemassa tämän ja muiden mahdollisten pandemioiden pysäyttämisessä, tiedon alkuperän ymmärtäminen on avainasemassa menestyksekkäässä dataan perustuvassa liiketoiminnassa.

Viisi tärkeintä datalinjauksen hyötyä

Näkökulmastani, jonka olen saanut työskennellessäni erikokoisten asiakkaiden kanssa useilla eri toimialoilla, haluaisin nostaa esiin viisi datalinjauksen hyötyä:

Liiketoimintaan kohdistuvat vaikutukset

Data on ratkaisevan tärkeää jokaisen organisaation selviytymisen kannalta. Tästä syystä yritysten on ajateltava useiden järjestelmien välistä tietovirtaa, joka ruokkii organisaation päätöksentekoa.

Markkinointiosasto käyttää esimerkiksi demografisia tietoja ja asiakkaiden käyttäytymistä myynnin ennustamiseen. Myös toimitusjohtaja tekee päätöksiä tulos- ja kasvutilastojen perusteella. Tietojen alkuperän ja historian ymmärtäminen auttaa vastaamaan Key Performance Indicator (KPI) -raporttien tietojen alkuperää koskeviin kysymyksiin, kuten:

  • Miten raportin taulukot ja sarakkeet on määritelty metatiedoissa?
  • Keitä ovat tietojen omistajat?
  • Mitkä ovat muunnossäännöt?

Ilman tietolinjausta nämä toiminnot ovat merkityksettömiä, joten on järkevää, että yrityksellä on selkeä käsitys siitä, mistä tiedot tulevat, kuka niitä käyttää ja miten ne muunnetaan. Myös ympäristön muuttuessa on arvokasta arvioida vaikutuksia yrityksen sovellusympäristöön.

Tilanteessa, jossa dataodotukset muuttuvat, datalinjaus tarjoaa keinon määrittää, mihin jatkojalostussovelluksiin ja -prosesseihin muutos vaikuttaa, ja se auttaa sovellusten päivitysten suunnittelussa.

Yhteensopivuus & Tarkistettavuus

Liiketoiminnan termit ja datakäytännöt tulisi panna täytäntöön standardoiduilla ja dokumentoiduilla liiketoimintasäännöillä. Näiden liiketoimintasääntöjen noudattamista voidaan seurata tietolinjan kautta, sisällyttämällä tarkastettavuus- ja validointikontrollit tietomuunnoksiin ja -putkiin, jotta voidaan luoda hälytyksiä, kun on vaatimustenvastaisia tietoinstansseja.

Sääntelyvaatimusten noudattaminen asettaa yrityksille entistä suurempia läpinäkyvyysvaatimuksia tietojen jäljittämisen ja tarkastamisen osalta. Esimerkiksi pääomamarkkinoilla toimivien kaupankäyntiyritysten on ymmärrettävä tietojensa alkuperä ja historia, jotta ne voivat tukea riskienhallintaa, tiedonhallintaa ja raportointia erilaisten säädösten, kuten BCBS 239:n ja MiFID II:n, mukaisesti.

Organisaation eri sidosryhmien (asiakkaat, työntekijät ja tilintarkastajat) on myös pystyttävä ymmärtämään raportoituja tietoja ja luottamaan niihin. Data lineage tarjoaa todisteen siitä, että toimitetut tiedot heijastuvat tarkasti.

Data Governance

Automaattinen data lineage -ratkaisu nivoo yhteen metatiedot, joiden avulla voidaan ymmärtää ja validoida datan käyttö sekä lieventää siihen liittyviä riskejä.

Se voi dokumentoida automaattisesti datan linjastoinnin alusta loppuun sekä ylös- että alaspäin ja paljastaa kaikki muutokset, jotka on tehty, kuka on tehnyt ja milloin.

Tämä datan omistajuus, vastuuvelvollisuus ja jäljitettävyys on hyvän datanhallintaohjelman perusta.

Vrt: The Benefits of Data Governance

Yhteistyö

Analytiikka ja raportointi ovat datasta riippuvaisia, minkä vuoksi eri liiketoimintaryhmien ja/tai osastojen välinen yhteistyö on ratkaisevan tärkeää.

Datan linjaston visualisointi voi auttaa liiketoimintakäyttäjiä havaitsemaan tietovirtojen luontaiset yhteydet ja siten lisäämään läpinäkyvyyttä ja tarkastettavuutta.

Dataputkien ja tietovirtojen näkeminen tukee entisestään vaatimustenmukaisuuspyrkimyksiä.

Datan laatu

Tiedon laatuun vaikuttavat datan liikkuminen, muuntaminen, tulkinta ja valinta ihmisten, prosessien ja teknologian kautta.

Juurisyyanalyysi on ensimmäinen askel datan laadun korjaamisessa. Kun data steward määrittää, missä datan virhe on otettu käyttöön, voidaan selvittää virheen syy.

Datan linjastoinnin ja kartoituksen avulla data steward voi jäljittää tietovirran taaksepäin tutkiakseen sovelletut standardoinnit ja muunnokset ja varmistaakseen, että ne on suoritettu oikein.

Katso datan linjastoinnin toimintaa

Datan linjastoinnin apuvälineet dokumentoivat datan kulun organisaation järjestelmiin ja järjestelmistä ulos. Ne tallentavat päästä päähän -linjauksen ja varmistavat, että asianmukainen vaikutusanalyysi voidaan suorittaa, jos tietovarantoihin kohdistuu ongelmia tai muutoksia niiden siirtyessä putkistojen läpi.

Erwin Data Intelligence Suite (erwin DI) luo automaattisesti päästä päähän -linjauksen saraketasolle asti ja tietovarastojen välillä. Voit tarkastella tietovirtoja lähdejärjestelmistä raportointikerroksiin, mukaan lukien välitransformaatio ja liiketoimintalogiikka.

Tule mukaan erwin Data Intelligence (DI) -palvelun seuraavaan live-demoon ja näe metatieto-ohjattu, automatisoitu tietolinjaus toiminnassa.

Vastaa

Sähköpostiosoitettasi ei julkaista.