Mientras aprenden , la mayoría de los científicos de datos y entusiastas tratan de lidiar con conjuntos de datos famosos como MNIST , ImageNet , … que son completos , limpios y bien formateados . Sin embargo, los problemas del mundo real y los conjuntos de datos están desafortunadamente lejos de esta utopía académica. Es decir , no son perfectos en absoluto , incluyen ruido , contienen muchos datos que faltan y a veces tampoco están bien estructurados o formateados .
En este post, vamos a hablar de uno de estos tediosos problemas que surgen a menudo, y sin más preámbulos como se menciona en el título, vamos a abordar el problema de los «datos perdidos» desde una perspectiva amplia y estadística
En primer lugar, ¿qué queremos decir concretamente con «datos perdidos»?
Datos perdidos significa que una o más variables ( características ) valores faltan generalmente codificados por -999 , nan , null . A menudo se produce cuando se recogen los datos de forma incorrecta, cuando faltan datos (por ejemplo, la valoración de los usuarios) o cuando se producen errores al introducir los datos (al teclear mal), lo que puede dar lugar a resultados y conclusiones drásticas que pueden afectar negativamente a las decisiones.
La siguiente figura ilustra el llamativo ejemplo de los «sistemas de recomendación» cuando el problema de la «falta de datos» se produce con frecuencia porque una parte de nuestros datos depende de las opiniones de los usuarios.
también causa mucha lucha para los investigadores mientras analizan e interpretan los resultados de su investigación para sacar conclusiones.
Hay tres tipos de datos perdidos:
1) Perdidos completamente y al azar – (MCAR).2) Perdidos al azar – (MAR).3) Perdidos no al azar – (MNAR).
Tipo I: Falta completamente al azar (MCAR)No hay relación entre la falta de un punto de datos y cualquier valor del conjunto de datos (faltante u observado).Los datos faltantes son sólo un subconjunto aleatorio de los datos. La falta no tiene nada que ver con ninguna otra variable. Por cierto , los datos son raramente MCAR.
el siguiente ejemplo representará este tipo de problema :
Es relativamente fácil comprobar la suposición de que en nuestro ejemplo los datos faltan completamente al azar. Si se puede predecir alguna razón para los datos que faltan (por ejemplo, usando el sentido común, la regresión, o algún otro método) ya sea basado en la variable completa Edad o en la variable faltante Puntuación de CI , entonces los datos no son MCAR !
TLDR : no se ven afectados ni por los datos observados ni por los faltantes => Completamente al azar
Tipo II: Faltan al azar (MAR)
Los datos faltantes aquí se ven afectados sólo por las variables completas (observadas ) y no por las características de los datos faltantes en sí. En otras palabras, para que un punto de datos falte no está relacionado con los datos que faltan, sino que está relacionado con algunos de ( o todos ) los datos observados, el siguiente ejemplo representará la situación y lo hará más claro :
Podríamos notar fácilmente que la puntuación del CI falta para los jóvenes ( edad < 44 yo ) , y por lo tanto los datos que faltan dependen de los datos observados , sin embargo no hay dependencia con los valores de la columna que falta en sí .
TLDR : no es causado por los datos faltantes en sí, sino que se ve afectado por los datos observados => Al azar
Tipo III: Faltan datos no al azar (MNAR)
No es ni el Tipo I ni el Tipo II, y los datos faltan en base a la columna faltante en sí, por ejemplo el siguiente ejemplo señala el hecho de que faltan datos en la puntuación de CI con sólo las personas que tienen una puntuación baja .
¡Como puede ver, es imposible detectar los casos de MNAR sin conocer los valores perdidos!
TLDR : causado por los propios datos que faltan => No al azar
aquí hay una lista no exhaustiva sobre cómo afrontar y tratar los problemas de datos que faltan :
Método 1: Supresión
se trata de dos técnicas diferentes :
- Supresión por listas : En este método, un registro entero se excluye del análisis si falta algún valor, y por lo tanto tenemos el mismo N (número de registros) para todo el análisis.
- Borrado por pares : durante nuestro análisis el número de registros que se toman en consideración denotado «N» variará de acuerdo a la variable estudiada (columna) , y por ejemplo podríamos calcular la media para 2 características (Completa VS faltante) y al dividir por el número de muestras , terminamos dividiendo por diferentes N , uno es el número total de filas y el otro es el número total de valores completos en la característica faltante .
Método 2: Métodos de imputación simple
- Imputación de un solo valor : reemplazar el valor faltante con un solo valor utilizando una estrategia como : Media , Mediana , Más Frecuente , Persona Media , … de la característica correspondiente .
- Similitud : tratar de encontrar la(s) fila(s) más cercana(s) ( top-N más cercana(s) ) a la fila que contiene nuestro valor perdido , y fijar una estrategia entre ellas para asignar un valor a nuestro valor perdido .
- Imputación por regresión : En la imputación por regresión simple el valor imputado se predice a partir de una ecuación de regresión , asumimos que los valores perdidos se encuentran en una línea de regresión con una pendiente no nula con una de las características completas ( predictores )
Método 3: Métodos de imputación múltiple
- Algoritmo de maximización de expectativas : ¡un algoritmo que podría ser utilizado tanto para la imputación de datos perdidos y para la tarea de aprendizaje de la máquina de agrupación (teniendo en cuenta el objetivo como una característica que falta) , se basa en dos pasos :
– Primero : Expectativa de valor perdido
– Segundo : Maximización de la probabilidad
Recomiendo encarecidamente Andrew NG stanford notas para entenderlo muy bien , no es un algoritmo difícil , no teman sus fórmulas ! http://cs229.stanford.edu/notes/cs229-notes8.pdf
- Métodos MI : Es un método atractivo para el manejo de datos perdidos en el análisis multivariado. La idea de la imputación múltiple de los datos perdidos fue propuesta por primera vez por Rubin, y consiste en promediar los resultados en múltiples conjuntos de datos imputados para tener en cuenta esta circunstancia. Todos los métodos de imputación múltiple siguen tres pasos:
- Imputación – De forma similar a la imputación simple, se imputan los valores perdidos. Sin embargo, los valores imputados se extraen m veces de una distribución en lugar de una sola vez. Al final de este paso, debe haber m conjuntos de datos completos.
- Análisis – Se analiza cada uno de los m conjuntos de datos. Al final de este paso debe haber m análisis.
- Pooling – Los m resultados se consolidan en un solo resultado mediante el cálculo de la media, la varianza y el intervalo de confianza de la variable de interés.
Gracias por tu tiempo y atención , Sigue aprendiendo!
si quieres ponerte en contacto conmigo en Linkedin estaría muy agradecido