O que é a Linhagem de Dados? Top 5 Benefits of Data Lineage

What is Data Lineage and Why is it Important?

Data lineage is the journey data takes from its creation through its transformations over time. Ela descreve a origem, movimento, características e qualidade de um determinado conjunto de dados.

Traçar a origem dos dados é uma tarefa árdua.

Muitas grandes organizações, em seu desejo de modernizar-se com tecnologia, adquiriram vários sistemas diferentes com vários pontos de entrada de dados e regras de transformação de dados à medida que eles se movem para dentro e através da organização.

Estas ferramentas vão desde produtos de barramento de serviços empresariais (ESB), ferramentas de integração de dados; ferramentas de extração, transformação e carregamento (ETL), código de procedimento, interfaces de programas de aplicação (API), processos de protocolo de transferência de arquivos (FTP) e até relatórios de inteligência empresarial (BI) que agregam e transformam ainda mais os dados.

Com todas essas diversas fontes de dados, e se os sistemas são integrados, é difícil entender a complicada web de dados que eles formam muito menos obter um fluxo visual simples. É por isso que a linhagem de dados deve ser rastreada e por que seu papel é tão vital para as operações de negócios, fornecendo a capacidade de entender a origem dos dados, como eles são transformados e como eles se movem para dentro, através e fora de uma determinada organização.

Caso de Uso de Lineagem de Dados: From Tracing COVID-19’s Origins to Data-Driven Business

Surgiram muitas teorias sobre a origem do coronavírus. Um estudo recente da University of California San Francisco (UCSF) conduziu uma análise genética da COVID-19 para determinar como o vírus foi introduzido especificamente na área da baía da Califórnia.

Deteve pelo menos oito linhagens virais diferentes em 29 pacientes em fevereiro e início de março, sugerindo que não houve zero paciente regional, mas sim múltiplas introduções independentes do patógeno. O professor que dirigiu o estudo disse, “é como faíscas entrando na Califórnia de várias fontes, causando múltiplos incêndios florestais”.

Tal como entender a linhagem viral é a chave para parar esta e outras potenciais pandemias, entender a origem dos dados, é a chave para um negócio bem sucedido orientado por dados.

Benefícios de cinco linhagens de dados

Da minha perspectiva de trabalhar com clientes de vários tamanhos em vários setores, eu gostaria de destacar cinco benefícios de linhagens de dados:

Impacto nos negócios

Os dados são cruciais para a sobrevivência de cada organização. Por essa razão, as empresas devem pensar no fluxo de dados entre vários sistemas que alimentam a tomada de decisões organizacionais.

Por exemplo, o departamento de marketing usa a demografia e o comportamento dos clientes para prever as vendas. O CEO também toma decisões com base em estatísticas de desempenho e crescimento. Uma compreensão da origem e história dos dados ajuda a responder perguntas sobre a origem dos dados em relatórios de Indicadores Chave de Desempenho (KPI), incluindo:

  • Como as tabelas e colunas dos relatórios são definidas nos metadados?
  • Quem são os proprietários dos dados?
  • Quais são as regras de transformação?

Sem linhagem de dados, estas funções são irrelevantes, por isso faz sentido para uma empresa ter uma compreensão clara de onde vêm os dados, quem os usa e como se transformam. Além disso, quando há uma mudança no ambiente, é valioso avaliar os impactos no cenário de aplicações empresariais.

No caso de uma mudança nas expectativas de dados, a linhagem de dados fornece uma maneira de determinar quais aplicações e processos posteriores são afetados pela mudança e ajuda no planejamento de atualizações de aplicações.

Compliance &Auditoria

Os termos e políticas de dados empresariais devem ser implementados através de regras de negócios padronizadas e documentadas. A conformidade com essas regras de negócios pode ser rastreada através da linhagem de dados, incorporando controles de auditabilidade e validação através de transformações de dados e pipelines para gerar alertas quando há instâncias de dados não conformes.

A conformidade regulamentar impõe maiores exigências de transparência às empresas quando se trata de rastrear e auditar dados. Por exemplo, as empresas de negociação do mercado de capitais devem compreender a origem e o histórico dos seus dados para suportar a gestão de risco, a governança de dados e os relatórios para várias regulamentações, tais como BCBS 239 e MiFID II.

As diferentes partes interessadas organizacionais (clientes, funcionários e auditores) precisam ser capazes de compreender e confiar nos dados reportados. A linhagem de dados oferece prova de que os dados fornecidos são refletidos com precisão.

Data Governance

Uma solução automatizada de linhagem de dados costura metadados para entender e validar o uso de dados, bem como mitigar os riscos associados.

Pode documentar automaticamente de ponta a ponta a linha de dados a montante e a jusante, revelando quaisquer alterações que tenham sido feitas, por quem e quando.

Esta propriedade de dados, responsabilidade e rastreabilidade é fundamental para um sólido programa de governança de dados.

Ver: Os benefícios da governança de dados

Colaboração

Análises e relatórios são dependentes de dados, tornando crucial a colaboração entre diferentes grupos e/ou departamentos empresariais.

A visualização da linhagem de dados pode ajudar os usuários empresariais a identificar as conexões inerentes dos fluxos de dados e, assim, proporcionar maior transparência e auditabilidade.

Visualizar condutas de dados e fluxos de informação apoia ainda mais os esforços de conformidade.

Qualidade dos dados

A qualidade dos dados é afectada pelo movimento, transformação, interpretação e selecção dos dados através de pessoas, processos e tecnologia.

Análise da causa raiz é o primeiro passo para reparar a qualidade dos dados. Uma vez que um administrador de dados determina onde uma falha de dados foi introduzida, a razão do erro pode ser determinada.

Com a linhagem de dados e mapeamento, o administrador de dados pode rastrear o fluxo de informações para trás para examinar as padronizações e transformações aplicadas para confirmar se elas foram executadas corretamente.

Ver Lineage Data Lineage in Action

Ferramentas de linhagem de dados documentam o fluxo de dados para dentro e para fora dos sistemas de uma organização. Elas capturam a linhagem de ponta a ponta e garantem que uma análise de impacto adequada possa ser realizada no caso de problemas ou alterações nos ativos de dados à medida que eles se movem através dos pipelines.

O erwin Data Intelligence Suite (erwin DI) gera automaticamente a linhagem de dados de ponta a ponta, até o nível da coluna e entre os repositórios. Você pode visualizar fluxos de dados dos sistemas de origem para as camadas de relatórios, incluindo transformação intermediária e lógica de negócios.

Junte-se a nós para a próxima demonstração ao vivo do erwin Data Intelligence (DI) para ver a linhagem de dados automatizada e orientada por metadados em ação.

Deixe uma resposta

O seu endereço de email não será publicado.