La guía definitiva para la limpieza de datos

Valores perdidos

El hecho de que los valores perdidos sean inevitables nos deja con la pregunta de qué hacer cuando los encontramos. Ignorar los datos que faltan es lo mismo que cavar agujeros en un barco; Se hundirá.

Hay tres, o quizás más, formas de tratarlos.

– Una. Descartar.

Si los valores que faltan en una columna ocurren raramente y se producen al azar, entonces la solución más fácil y directa es descartar las observaciones (filas) que tienen valores que faltan.

Si la mayoría de los valores de la columna faltan, y se producen al azar, entonces una decisión típica es descartar toda la columna.

Esto es particularmente útil cuando se hace un análisis estadístico, ya que rellenar los valores que faltan puede producir resultados inesperados o sesgados.

– Dos. Imputar.

Significa calcular el valor que falta basándose en otras observaciones. Hay bastantes métodos para hacerlo.

– El primero es utilizar valores estadísticos como la media, la mediana. Sin embargo, ninguno de ellos garantiza datos insesgados, especialmente si hay muchos valores perdidos.

La media es más útil cuando los datos originales no están sesgados, mientras que la mediana es más robusta, no es sensible a los valores atípicos y, por lo tanto, se utiliza cuando los datos están sesgados.

En unos datos distribuidos normalmente, uno puede obtener todos los valores que están dentro de 2 desviaciones estándar de la media. A continuación, se rellenan los valores que faltan generando números aleatorios entre (mean — 2 * std) & (mean + 2 * std)

– Segundo. Utilizar una regresión lineal. A partir de los datos existentes, se puede calcular la línea de mejor ajuste entre dos variables, por ejemplo, el precio de la vivienda frente al tamaño del m².

Cabe mencionar que los modelos de regresión lineal son sensibles a los valores atípicos.

– Tercero. Cubierta en caliente: Copiar valores de otros registros similares. Esto sólo es útil si se tienen suficientes datos disponibles. Y, puede aplicarse a datos numéricos y categóricos.

Uno puede adoptar el enfoque aleatorio en el que rellenamos el valor que falta con un valor aleatorio. Llevando este enfoque un paso más allá, primero se puede dividir el conjunto de datos en dos grupos (estratos), basándose en alguna característica, por ejemplo, el género, y luego rellenar los valores que faltan para los diferentes géneros por separado, de forma aleatoria.

En la imputación secuencial en caliente, la columna que contiene los valores que faltan se ordena según la(s) variable(s) auxiliar(es), de forma que los registros que tienen auxiliares similares aparecen secuencialmente. A continuación, cada valor perdido se rellena con el valor del primer registro siguiente disponible.

Lo más interesante es que también se puede utilizar la imputación por vecino más cercano, que clasifica los registros similares y los pone juntos. Un valor que falta se rellena encontrando primero los registros 𝑘 más cercanos al registro con valores perdidos. A continuación, se elige un valor entre los 𝑘 vecinos más cercanos (o se calcula a partir de ellos). En el caso de la computación, se pueden utilizar métodos estadísticos como la media (como se ha comentado anteriormente).

– Tres. Bandera.

Algunos argumentan que rellenar los valores perdidos conlleva una pérdida de información, independientemente del método de imputación que hayamos utilizado.

Eso es porque decir que los datos faltan es informativo en sí mismo, y el algoritmo debería saberlo. De lo contrario, sólo estamos reforzando el patrón ya existente por otras características.

Esto es particularmente importante cuando los datos que faltan no ocurren al azar. Tomemos por ejemplo una encuesta realizada en la que la mayoría de las personas de una raza específica se niegan a responder a una determinada pregunta.

Los datos numéricos que faltan pueden rellenarse con, por ejemplo, 0, pero estos ceros deben ignorarse al calcular cualquier valor estadístico o trazar la distribución.

Mientras que los datos categóricos pueden rellenarse con, por ejemplo, «Falta»: Una nueva categoría que indica que ese dato falta.

– Tenga en cuenta …

Los valores que faltan no son lo mismo que los valores por defecto. Por ejemplo, el cero puede interpretarse como ausente o por defecto, pero no como ambos.

Los valores ausentes no son «desconocidos». Una investigación llevada a cabo en la que algunas personas no recuerdan si han sido acosadas o no en la escuela, debería ser tratada y etiquetada como desconocida y no como omitida.

Cada vez que descartamos o imputamos valores estamos perdiendo información. Por lo tanto, el marcado puede venir al rescate.

Outliers

Son valores que son significativamente diferentes de todas las demás observaciones. Cualquier valor de datos que se encuentre a más de (1,5 * IQR) de los cuartiles Q1 y Q3 se considera un valor atípico.

Los valores atípicos son inocentes hasta que se demuestre su culpabilidad. Dicho esto, no deben eliminarse a menos que haya una buena razón para ello.

Por ejemplo, uno puede notar algunos valores extraños y sospechosos que son poco probables, y por eso decide eliminarlos. Aunque, vale la pena investigarlos antes de eliminarlos.

También vale la pena mencionar que algunos modelos, como la regresión lineal, son muy sensibles a los valores atípicos. En otras palabras, los valores atípicos podrían desviar el modelo de donde se encuentran la mayoría de los datos.

Errores de conjuntos de datos cruzados

Estos errores son el resultado de tener dos o más valores en la misma fila o entre conjuntos de datos que se contradicen entre sí.

Por ejemplo, si tenemos un conjunto de datos sobre el coste de la vida en las ciudades. La columna del total debe ser equivalente a la suma del alquiler, el transporte y la comida.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

De la misma manera, un niño no puede estar casado. El salario de un empleado no puede ser menor que los impuestos calculados.

La misma idea se aplica a los datos relacionados a través de diferentes conjuntos de datos.

Verificando

Una vez hecho esto, se debe verificar la corrección volviendo a inspeccionar los datos y asegurándose de que las reglas y restricciones se mantienen.

Por ejemplo, después de rellenar los datos que faltan, podrían violar alguna de las reglas y restricciones.

Podría implicar alguna corrección manual si no es posible de otra manera.

Informar

Informar sobre la salud de los datos, es igualmente importante para la limpieza.

Como se mencionó anteriormente, los paquetes de software o las bibliotecas pueden generar informes de los cambios realizados, qué reglas se violaron y cuántas veces.

Además de registrar las violaciones, se deben considerar las causas de estos errores. ¿Por qué ocurrieron en primer lugar?.

Palabras finales …

Si has llegado hasta aquí, me alegro de que hayas podido aguantar hasta el final. Pero, Nada de lo mencionado tiene valor si no se adopta la cultura de la calidad.

Por muy robusto y fuerte que sea el proceso de validación y limpieza, se seguirá sufriendo a medida que lleguen nuevos datos.

Es mejor protegerse de una enfermedad en lugar de gastar el tiempo y el esfuerzo en remediarla.

Estas preguntas ayudan a evaluar y mejorar la calidad de los datos:

¿Cómo se recogen los datos y en qué condiciones? El entorno en el que se recogen los datos es importante. El entorno incluye, entre otras cosas, la ubicación, el horario, las condiciones meteorológicas, etc.

Preguntar a los sujetos sobre su opinión respecto a lo que sea mientras van de camino al trabajo no es lo mismo que mientras están en casa. Los pacientes sometidos a un estudio que tienen dificultades para utilizar las tabletas para responder a un cuestionario podrían desvirtuar los resultados.

¿Qué representan los datos? ¿Incluye a todo el mundo? ¿Sólo a los habitantes de la ciudad? O, tal vez, sólo a los que optaron por responder porque tenían una fuerte opinión sobre el tema.

¿Cuáles son los métodos utilizados para limpiar los datos y por qué? Diferentes métodos pueden ser mejores en diferentes situaciones o con diferentes tipos de datos.

¿Invierte el tiempo y el dinero en mejorar el proceso? Invertir en las personas y en el proceso es tan importante como invertir en la tecnología.