Le guide ultime du nettoyage des données

Valeurs manquantes

Le fait que les valeurs manquantes soient inévitables nous laisse avec la question de ce qu’il faut faire quand on les rencontre. Ignorer les données manquantes est la même chose que de creuser des trous dans un bateau ; Il va couler.

Il y a trois, ou peut-être plus, façons de les traiter.

– Une. Drop.

Si les valeurs manquantes dans une colonne se produisent rarement et se produisent au hasard, alors la solution la plus facile et la plus en avant est de laisser tomber les observations (lignes) qui ont des valeurs manquantes.

Si la plupart des valeurs de la colonne sont manquantes, et se produisent au hasard, alors une décision typique est de laisser tomber la colonne entière.

Ceci est particulièrement utile lors de l’analyse statistique, puisque le remplissage des valeurs manquantes peut donner des résultats inattendus ou biaisés.

– Deux. Imputer.

Cela signifie calculer la valeur manquante à partir d’autres observations. Il y a pas mal de méthodes pour le faire.

– La première consiste à utiliser des valeurs statistiques comme la moyenne, la médiane. Cependant, aucune d’entre elles ne garantit des données non biaisées, surtout s’il y a beaucoup de valeurs manquantes.

La moyenne est plus utile lorsque les données originales ne sont pas asymétriques, tandis que la médiane est plus robuste, non sensible aux valeurs aberrantes, et donc utilisée lorsque les données sont asymétriques.

Dans une donnée normalement distribuée, on peut obtenir toutes les valeurs qui sont à moins de 2 écarts types de la moyenne. Ensuite, on remplit les valeurs manquantes en générant des nombres aléatoires entre (mean — 2 * std) & (mean + 2 * std)

– Deuxièmement. Utiliser une régression linéaire. Sur la base des données existantes, on peut calculer la ligne de meilleur ajustement entre deux variables, disons le prix de la maison par rapport à la taille m².

Il convient de mentionner que les modèles de régression linéaire sont sensibles aux valeurs aberrantes.

– Troisièmement. Hot-deck : Copier les valeurs d’autres enregistrements similaires. Cette méthode n’est utile que si vous avez suffisamment de données disponibles. Et, elle peut être appliquée aux données numériques et catégorielles.

On peut adopter l’approche aléatoire où on remplit la valeur manquante avec une valeur aléatoire. En poussant cette approche un peu plus loin, on peut d’abord diviser l’ensemble de données en deux groupes (strates), en fonction d’une certaine caractéristique, par exemple le sexe, puis remplir les valeurs manquantes pour les différents sexes séparément, de façon aléatoire.

Dans l’imputation séquentielle hot-deck, la colonne contenant les valeurs manquantes est triée en fonction de la ou des variables auxiliaires, de sorte que les enregistrements qui ont des auxiliaires similaires apparaissent séquentiellement. Ensuite, chaque valeur manquante est remplie par la valeur du premier enregistrement disponible suivant.

Ce qui est plus intéressant, c’est que l’imputation 𝑘 plus proche voisin, qui classe les enregistrements similaires et les met ensemble, peut également être utilisée. Une valeur manquante est alors remplie en trouvant d’abord les 𝑘 enregistrements les plus proches de l’enregistrement avec des valeurs manquantes. Ensuite, une valeur est choisie parmi (ou calculée à partir de) ces 𝑘 voisins les plus proches. Dans le cas du calcul, des méthodes statistiques comme la moyenne (comme discuté précédemment) peuvent être utilisées.

– Trois. Drapeau.

Certains soutiennent que le remplissage des valeurs manquantes entraîne une perte d’information, quelle que soit la méthode d’imputation que nous avons utilisée.

C’est parce que dire que les données sont manquantes est informatif en soi, et l’algorithme devrait le savoir. Sinon, nous ne faisons que renforcer le modèle déjà existant par d’autres caractéristiques.

Ceci est particulièrement important lorsque les données manquantes ne se produisent pas au hasard. Prenez par exemple une enquête menée où la plupart des personnes d’une race spécifique refusent de répondre à une certaine question.

Les données numériques manquantes peuvent être remplies avec disons, 0, mais a ces zéros doivent être ignorés lors du calcul de toute valeur statistique ou du tracé de la distribution.

Alors que les données catégorielles peuvent être remplies avec disons, « manquantes » : Une nouvelle catégorie qui indique que cette donnée est manquante.

– Prendre en considération…

Les valeurs manquantes ne sont pas les mêmes que les valeurs par défaut. Par exemple, zéro peut être interprété comme manquant ou par défaut, mais pas les deux.

Les valeurs manquantes ne sont pas « inconnues ». Une recherche menée où certaines personnes ne se souvenaient pas si elles avaient été brutalisées ou non à l’école, devrait être traitée et étiquetée comme inconnue et non manquante.

Chaque fois que nous abandonnons ou imputons des valeurs, nous perdons des informations. Donc, le marquage pourrait venir à la rescousse.

Outliers

Ils sont des valeurs qui sont significativement différentes de toutes les autres observations. Toute valeur de données qui se trouve à plus de (1,5 * IQR) des quartiles Q1 et Q3 est considérée comme une valeur aberrante.

Les valeurs aberrantes sont innocentes jusqu’à preuve du contraire. Ceci étant dit, elles ne devraient pas être supprimées à moins qu’il n’y ait une bonne raison pour cela.

Par exemple, on peut remarquer des valeurs bizarres et suspectes qui sont peu probables, et donc décider de les supprimer. Bien qu’elles méritent d’être étudiées avant d’être supprimées.

Il faut aussi mentionner que certains modèles, comme la régression linéaire, sont très sensibles aux valeurs aberrantes. En d’autres termes, les valeurs aberrantes pourraient dévier le modèle de l’endroit où se trouvent la plupart des données.

Enregistrement & erreurs de jeux de données croisés

Ces erreurs résultent du fait d’avoir deux ou plusieurs valeurs dans la même ligne ou à travers les jeux de données qui se contredisent.

Par exemple, si nous avons un jeu de données sur le coût de la vie dans les villes. La colonne total doit être équivalente à la somme du loyer, du transport et de la nourriture.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

De même, un enfant ne peut pas être marié. Le salaire d’un employé ne peut pas être inférieur aux impôts calculés.

La même idée s’applique aux données liées à travers différents ensembles de données.

Vérification

Quand c’est fait, il faut vérifier l’exactitude en réinspectant les données et en s’assurant que ses règles et contraintes tiennent bien.

Par exemple, après avoir rempli les données manquantes, elles pourraient violer l’une des règles et contraintes.

Cela peut impliquer une correction manuelle si cela n’est pas possible autrement.

Rapports

Rapports sur la santé des données, est tout aussi important que le nettoyage.

Comme mentionné précédemment, les progiciels ou les bibliothèques peuvent générer des rapports sur les changements effectués, les règles violées et le nombre de fois.

En plus de consigner les violations, il faut considérer les causes de ces erreurs. Pourquoi se sont-elles produites en premier lieu ?.

Mots finaux…

Si vous êtes arrivé jusqu’ici, je suis heureux que vous ayez pu tenir jusqu’à la fin. Mais, Rien de ce qui a été mentionné n’a de valeur sans l’adoption de la culture de la qualité.

Peu importe la robustesse et la force du processus de validation et de nettoyage, on continuera à souffrir au fur et à mesure que de nouvelles données arrivent.

Il vaut mieux se prémunir contre une maladie plutôt que de dépenser le temps et les efforts pour y remédier.

Ces questions aident à évaluer et à améliorer la qualité des données :

Comment les données sont collectées, et dans quelles conditions…. L’environnement dans lequel les données ont été collectées a effectivement de l’importance. L’environnement comprend, sans s’y limiter, le lieu, le moment, les conditions météorologiques, etc.

Interroger les sujets sur leur opinion concernant un sujet quelconque alors qu’ils sont sur le chemin du travail n’est pas la même chose que lorsqu’ils sont à la maison. Les patients faisant l’objet d’une étude qui ont des difficultés à utiliser les tablettes pour répondre à un questionnaire pourraient fausser les résultats.

Que représentent les données ? Est-ce qu’elles incluent tout le monde ? Seulement les habitants de la ville ?. Ou, peut-être, seulement ceux qui ont choisi de répondre parce qu’ils avaient une forte opinion sur le sujet.

Quelles sont les méthodes utilisées pour nettoyer les données et pourquoi ? Différentes méthodes peuvent être meilleures dans différentes situations ou avec différents types de données.

Investissez-vous le temps et l’argent pour améliorer le processus ? L’investissement dans les personnes et le processus est aussi essentiel que l’investissement dans la technologie.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.