¿Qué es el linaje de datos y por qué es importante?
El linaje de datos es el viaje que hacen los datos desde su creación hasta sus transformaciones a lo largo del tiempo. Describe el origen, el movimiento, las características y la calidad de un determinado conjunto de datos.
Rastrear el origen de los datos es una tarea ardua.
Muchas grandes organizaciones, en su deseo de modernizarse con la tecnología, han adquirido varios sistemas diferentes con varios puntos de entrada de datos y reglas de transformación para los datos a medida que se mueven dentro y a través de la organización.
Estas herramientas van desde productos de bus de servicios empresariales (ESB), herramientas de integración de datos; herramientas de extracción, transformación y carga (ETL), código de procedimientos, interfaces de programas de aplicación (API), procesos de protocolo de transferencia de archivos (FTP), e incluso informes de inteligencia empresarial (BI) que agregan y transforman aún más los datos.
Con todas estas diversas fuentes de datos, y si los sistemas están integrados, es difícil entender la complicada red de datos que forman y mucho menos conseguir un flujo visual sencillo. Es por ello que el linaje de los datos debe ser rastreado y por qué su papel es tan vital para las operaciones de negocio, proporcionando la capacidad de entender dónde se originan los datos, cómo se transforman, y cómo se mueven dentro, a través y fuera de una determinada organización.
Caso de uso del linaje de datos: Del rastreo de los orígenes de COVID-19 a los negocios impulsados por los datos
Han surgido muchas teorías sobre el origen del coronavirus. Un estudio reciente de la Universidad de California en San Francisco (UCSF) realizó un análisis genético del COVID-19 para determinar cómo se introdujo el virus específicamente en la zona de la bahía de California.
Detectó al menos ocho linajes virales diferentes en 29 pacientes en febrero y principios de marzo, lo que sugiere que no hay un cero regional de pacientes sino múltiples introducciones independientes del patógeno. El profesor que dirigió el estudio dijo: «es como si las chispas entraran en California desde varias fuentes, causando múltiples incendios forestales».
Al igual que entender el linaje viral es clave para detener esta y otras pandemias potenciales, entender el origen de los datos, es clave para un negocio exitoso basado en datos.
Los cinco principales beneficios del linaje de datos
Desde mi punto de vista, al trabajar con clientes de diversos tamaños en múltiples sectores, me gustaría destacar cinco beneficios del linaje de datos:
Impacto en el negocio
Los datos son cruciales para la supervivencia de toda organización. Por esa razón, las empresas deben pensar en el flujo de datos a través de múltiples sistemas que alimentan la toma de decisiones de la organización.
Por ejemplo, el departamento de marketing utiliza la demografía y el comportamiento de los clientes para predecir las ventas. El director general también toma decisiones basándose en las estadísticas de rendimiento y crecimiento. La comprensión de los orígenes y la historia de los datos ayuda a responder a las preguntas sobre el origen de los datos en los informes de los Indicadores Clave de Rendimiento (KPI), incluyendo:
- ¿Cómo se definen las tablas y columnas del informe en los metadatos?
- ¿Quiénes son los propietarios de los datos?
- ¿Cuáles son las reglas de transformación?
Sin el linaje de los datos, estas funciones son irrelevantes, por lo que tiene sentido para una empresa tener una comprensión clara de dónde vienen los datos, quién los utiliza y cómo se transforman. Además, cuando hay un cambio en el entorno, es valioso evaluar los impactos en el panorama de las aplicaciones de la empresa.
En el caso de un cambio en las expectativas de los datos, el linaje de datos proporciona una manera de determinar qué aplicaciones y procesos posteriores se ven afectados por el cambio y ayuda en la planificación de las actualizaciones de las aplicaciones.
Cumplimiento &Auditabilidad
Los términos de negocio y las políticas de datos deben ser implementados a través de reglas de negocio estandarizadas y documentadas. El cumplimiento de estas reglas de negocio puede ser rastreado a través del linaje de los datos, incorporando controles de auditabilidad y validación a través de las transformaciones de datos y pipelines para generar alertas cuando hay instancias de datos no conformes.
El cumplimiento normativo impone mayores exigencias de transparencia a las empresas cuando se trata de rastrear y auditar datos. Por ejemplo, las empresas que operan en los mercados de capitales deben conocer el origen y el historial de sus datos para respaldar la gestión de riesgos, la gobernanza de los datos y la presentación de informes en relación con diversas normativas, como la BCBS 239 y la MiFID II.
Además, las distintas partes interesadas de la organización (clientes, empleados y auditores) deben ser capaces de comprender los datos notificados y confiar en ellos. El linaje de datos ofrece la prueba de que los datos proporcionados se reflejan con precisión.
Gobierno de datos
Una solución automatizada de linaje de datos cose los metadatos para comprender y validar el uso de los datos, así como para mitigar los riesgos asociados.
Puede documentar automáticamente el linaje de datos ascendente y descendente de principio a fin, revelando cualquier cambio que se haya realizado, por quién y cuándo.
Esta propiedad, responsabilidad y trazabilidad de los datos es fundamental para un programa de gobierno de datos sólido.
Ver: Los beneficios de la gobernanza de datos
Colaboración
La analítica y la elaboración de informes dependen de los datos, lo que hace que la colaboración entre los diferentes grupos de negocio y/o departamentos sea crucial.
La visualización del linaje de los datos puede ayudar a los usuarios de negocio a detectar las conexiones inherentes a los flujos de datos y, por lo tanto, proporcionar una mayor transparencia y auditabilidad.
La visualización de los conductos de datos y de los flujos de información apoya aún más los esfuerzos de cumplimiento.
Calidad de los datos
La calidad de los datos se ve afectada por el movimiento, la transformación, la interpretación y la selección de los datos a través de las personas, los procesos y la tecnología.
El análisis de la causa raíz es el primer paso para reparar la calidad de los datos. Una vez que un administrador de datos determina dónde se ha introducido un fallo en los datos, se puede determinar la razón del error.
Con el linaje y el mapeo de datos, el administrador de datos puede rastrear el flujo de información hacia atrás para examinar las estandarizaciones y transformaciones aplicadas para confirmar si se realizaron correctamente.
Vea el linaje de datos en acción
Las herramientas de linaje de datos documentan el flujo de datos que entran y salen de los sistemas de una organización. Capturan el linaje de extremo a extremo y garantizan que se pueda realizar un análisis de impacto adecuado en caso de problemas o cambios en los activos de datos a medida que se mueven a través de las tuberías.
El erwin Data Intelligence Suite (erwin DI) genera automáticamente el linaje de datos de extremo a extremo, hasta el nivel de columna y entre repositorios. Puede ver los flujos de datos desde los sistemas de origen hasta las capas de información, incluyendo la transformación intermedia y la lógica de negocio.
Acompáñenos en la próxima demostración en vivo de erwin Data Intelligence (DI) para ver el linaje de datos automatizado y basado en metadatos en acción.