Der ultimative Leitfaden zur Datenbereinigung

Fehlende Werte

Angesichts der Tatsache, dass fehlende Werte unvermeidlich sind, stellt sich die Frage, was wir tun sollen, wenn wir auf sie stoßen. Die fehlenden Daten zu ignorieren ist dasselbe wie Löcher in ein Boot zu graben; es wird sinken.

Es gibt drei, oder vielleicht mehr, Möglichkeiten, mit ihnen umzugehen.

– Erstens. Weglassen.

Wenn die fehlenden Werte in einer Spalte selten und zufällig auftreten, dann ist die einfachste und vorteilhafteste Lösung, die Beobachtungen (Zeilen) mit fehlenden Werten wegzulassen.

Wenn die meisten Werte der Spalte fehlen und zufällig auftreten, dann ist eine typische Entscheidung, die gesamte Spalte wegzulassen.

Dies ist besonders nützlich, wenn statistische Analysen durchgeführt werden, da das Auffüllen der fehlenden Werte unerwartete oder verzerrte Ergebnisse liefern kann.

– Zwei. Impute.

Es bedeutet, dass der fehlende Wert auf der Grundlage anderer Beobachtungen berechnet wird. Es gibt eine ganze Reihe von Methoden, um dies zu tun.

– Die erste ist die Verwendung statistischer Werte wie Mittelwert und Median. Keiner dieser Werte garantiert jedoch unverzerrte Daten, insbesondere wenn viele Werte fehlen.

Der Mittelwert ist am nützlichsten, wenn die ursprünglichen Daten nicht schief sind, während der Median robuster ist und nicht auf Ausreißer reagiert und daher verwendet wird, wenn die Daten schief sind.

Bei normal verteilten Daten kann man alle Werte ermitteln, die innerhalb von 2 Standardabweichungen vom Mittelwert liegen. Füllen Sie dann die fehlenden Werte auf, indem Sie Zufallszahlen zwischen (mean — 2 * std) & (mean + 2 * std)

– 2. erzeugen. Verwendung einer linearen Regression. Auf der Grundlage der vorhandenen Daten kann man die beste Anpassungslinie zwischen zwei Variablen berechnen, z. B. Hauspreis vs. m²-Größe.

Es ist erwähnenswert, dass lineare Regressionsmodelle empfindlich gegenüber Ausreißern sind.

– Drittens. Hot-deck: Das Kopieren von Werten aus anderen ähnlichen Datensätzen. Dies ist nur sinnvoll, wenn genügend Daten vorhanden sind. Und es kann auf numerische und kategoriale Daten angewandt werden.

– Man kann den Zufallsansatz wählen, bei dem der fehlende Wert mit einem Zufallswert aufgefüllt wird. Geht man bei diesem Ansatz noch einen Schritt weiter, so kann man den Datensatz zunächst in zwei Gruppen (Schichten) auf der Grundlage eines Merkmals, z. B. des Geschlechts, unterteilen und dann die fehlenden Werte für die verschiedenen Geschlechter getrennt nach dem Zufallsprinzip auffüllen.

Bei der sequentiellen Hotdeck-Imputation wird die Spalte mit den fehlenden Werten nach Hilfsvariable(n) sortiert, so dass Datensätze, die ähnliche Hilfsvariablen aufweisen, nacheinander auftreten. Anschließend wird jeder fehlende Wert mit dem Wert des ersten folgenden verfügbaren Datensatzes aufgefüllt.

Interessanter ist, dass auch die 𝑘-Nearest-Neighbour-Imputation verwendet werden kann, die ähnliche Datensätze klassifiziert und sie zusammenfasst. Ein fehlender Wert wird dann aufgefüllt, indem zunächst die 𝑘 Datensätze gefunden werden, die dem Datensatz mit fehlenden Werten am nächsten liegen. Anschließend wird ein Wert aus den 𝑘 nächsten Nachbarn ausgewählt (oder aus diesen berechnet). Bei der Berechnung können statistische Methoden wie der Mittelwert (wie zuvor besprochen) verwendet werden.

– Drei. Flagge.

Einige argumentieren, dass das Auffüllen der fehlenden Werte zu einem Informationsverlust führt, egal welche Imputationsmethode wir verwenden.

Das liegt daran, dass die Feststellung, dass die Daten fehlen, an sich informativ ist und der Algorithmus dies wissen sollte. Andernfalls verstärken wir nur das Muster, das bereits durch andere Merkmale vorhanden ist.

Dies ist besonders wichtig, wenn die fehlenden Daten nicht zufällig auftreten. Nehmen wir zum Beispiel eine Umfrage, bei der die meisten Menschen einer bestimmten Rasse sich weigern, eine bestimmte Frage zu beantworten.

Fehlende numerische Daten können mit, sagen wir, 0 ausgefüllt werden, aber diese Nullen müssen bei der Berechnung eines statistischen Wertes oder der Darstellung der Verteilung ignoriert werden.

Während kategorische Daten mit, sagen wir, „Fehlend“ ausgefüllt werden können: Eine neue Kategorie, die besagt, dass dieser Teil der Daten fehlt.

– Berücksichtigen Sie …

Fehlende Werte sind nicht dasselbe wie Standardwerte. Zum Beispiel kann eine Null entweder als fehlend oder als Standardwert interpretiert werden, aber nicht als beides.

Fehlende Werte sind nicht „unbekannt“. Eine durchgeführte Untersuchung, bei der sich einige Personen nicht daran erinnern konnten, ob sie in der Schule gemobbt wurden oder nicht, sollte als unbekannt und nicht als fehlend behandelt und gekennzeichnet werden.

Jedes Mal, wenn wir Werte weglassen oder unterstellen, verlieren wir Informationen. Die Markierung kann also die Rettung sein.

Ausreißer

Sie sind Werte, die sich signifikant von allen anderen Beobachtungen unterscheiden. Jeder Datenwert, der mehr als (1,5 * IQR) von den Quartilen Q1 und Q3 abweicht, gilt als Ausreißer.

Ausreißer sind unschuldig, bis ihre Schuld bewiesen ist. Das heißt, sie sollten nicht entfernt werden, es sei denn, es gibt einen guten Grund dafür.

Zum Beispiel kann man einige seltsame, verdächtige Werte feststellen, die unwahrscheinlich sind, und beschließt, sie zu entfernen. Es lohnt sich jedoch, sie zu untersuchen, bevor man sie entfernt.

Es ist auch erwähnenswert, dass einige Modelle, wie die lineare Regression, sehr empfindlich auf Ausreißer reagieren. Mit anderen Worten, Ausreißer können das Modell davon ablenken, wo die meisten Daten liegen.

Datensatzübergreifende Fehler

Diese Fehler resultieren daraus, dass zwei oder mehr Werte in derselben Zeile oder über Datensätze hinweg vorhanden sind, die sich gegenseitig widersprechen.

Angenommen, wir haben einen Datensatz über die Lebenshaltungskosten in Städten. Die Gesamtspalte muss der Summe aus Miete, Transport und Lebensmitteln entsprechen.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

Auch ein Kind kann nicht verheiratet sein. Das Gehalt eines Arbeitnehmers darf nicht niedriger sein als die berechneten Steuern.

Das Gleiche gilt für zusammenhängende Daten in verschiedenen Datensätzen.

Überprüfen

Nachdem man dies getan hat, sollte man die Korrektheit überprüfen, indem man die Daten erneut überprüft und sicherstellt, dass die Regeln und Einschränkungen eingehalten werden.

Nach dem Ausfüllen der fehlenden Daten könnten sie zum Beispiel eine der Regeln und Einschränkungen verletzen.

Es könnte eine manuelle Korrektur erforderlich sein, wenn dies nicht anders möglich ist.

Berichterstattung

Die Berichterstattung über den Zustand der Daten ist ebenso wichtig wie die Bereinigung.

Wie bereits erwähnt, können Softwarepakete oder Bibliotheken Berichte über die vorgenommenen Änderungen, die verletzten Regeln und die Anzahl der Verstöße erstellen.

Neben der Protokollierung der Verstöße sollten auch die Ursachen für diese Fehler berücksichtigt werden. Warum sind sie überhaupt passiert?

Schlusswort …

Wenn Sie es bis hierher geschafft haben, freue ich mich, dass Sie bis zum Ende durchgehalten haben. Aber nichts von dem, was erwähnt wurde, ist wertvoll, wenn man sich nicht die Qualitätskultur zu eigen macht.

Auch wenn der Validierungs- und Bereinigungsprozess noch so robust und stark ist, wird er weiter leiden, wenn neue Daten eintreffen.

Es ist besser, sich vor einer Krankheit zu schützen, als Zeit und Mühe darauf zu verwenden, sie zu beseitigen.

Diese Fragen helfen, die Datenqualität zu bewerten und zu verbessern:

Wie und unter welchen Bedingungen wurden die Daten erhoben? Die Umgebung, in der die Daten erhoben wurden, spielt eine Rolle. Dazu gehören unter anderem der Ort, der Zeitpunkt, die Wetterbedingungen usw.

Die Befragung von Probanden über ihre Meinung zu einem bestimmten Thema, während sie auf dem Weg zur Arbeit sind, ist nicht dasselbe wie die Befragung zu Hause. Patienten in einer Studie, die Schwierigkeiten haben, den Fragebogen mit dem Tablet zu beantworten, könnten die Ergebnisse verfälschen.

Was repräsentieren die Daten? Umfassen sie alle Menschen? Nur die Menschen in der Stadt?. Oder vielleicht nur diejenigen, die sich entschieden haben, zu antworten, weil sie eine starke Meinung zu dem Thema hatten.

Welche Methoden werden zur Bereinigung der Daten verwendet und warum? Verschiedene Methoden können in verschiedenen Situationen oder bei verschiedenen Datentypen besser sein.

Investieren Sie Zeit und Geld in die Verbesserung des Prozesses? Investitionen in Menschen und Prozesse sind genauso wichtig wie Investitionen in die Technologie.