Während des Lernens versuchen die meisten Datenwissenschaftler und Enthusiasten, mit berühmten Datensätzen wie MNIST, ImageNet, … die vollständig, sauber und gut formatiert sind. Die Probleme und Datensätze der realen Welt sind jedoch leider weit von dieser akademischen Utopie entfernt. Mit anderen Worten, sie sind überhaupt nicht perfekt, sie enthalten Rauschen, sie enthalten eine Menge fehlender Daten und manchmal sind sie auch nicht gut strukturiert oder formatiert.
In diesem Beitrag werden wir über eines dieser lästigen Probleme sprechen, das oft auftaucht, und ohne weitere Umschweife, wie im Titel erwähnt, werden wir das „fehlende Daten“-Problem aus einer breiten und statistischen Perspektive angehen
Zunächst einmal, was meinen wir konkret mit „fehlenden Daten“?
Fehlende Daten bedeutet, dass ein oder mehrere Variablen ( Merkmale ) Werte fehlen, die im Allgemeinen durch -999, nan, null kodiert sind. . oft kommt es bei der Datenerhebung zu Fehlern, fehlenden Daten ( z.B. Nutzerbewertung ), oder Fehlern bei der Dateneingabe ( Tippfehler ), was zu drastischen Erkenntnissen und Schlussfolgerungen führen kann, die sich negativ auf die Entscheidungen auswirken können !
Die folgende Abbildung illustriert das markante Beispiel von „Empfehlungssystemen“, bei denen das Problem der „fehlenden Daten“ häufig auftritt, weil ein Teil unserer Daten von den Rückmeldungen der Nutzer abhängt.
es verursacht auch eine Menge Kampf für Forscher bei der Analyse und Interpretation der Ergebnisse ihrer Forschung, um Schlussfolgerungen zu machen.
Es gibt drei Arten von fehlenden Daten:
1) Missing Completely and Random – (MCAR).
2) Missing at Random – (MAR).
3) Missing Not at Random – (MNAR).
Typ I: Missing Completely at Random (MCAR)
Es gibt keinen Zusammenhang zwischen dem Fehlen eines Datenpunktes und den Werten im Datensatz (fehlende oder beobachtete). Das Fehlen von Daten hat nichts mit anderen Variablen zu tun. Übrigens sind Daten selten MCAR.
Das folgende Beispiel zeigt diese Art von Problem :
Es ist relativ einfach, die Annahme zu überprüfen, dass in unserem Beispiel die Daten völlig zufällig fehlen. Wenn Sie einen Grund für fehlende Daten vorhersagen können (z. B., mit gesundem Menschenverstand, Regression oder einer anderen Methode), sei es auf der Grundlage der vollständigen Variable Alter oder der fehlenden Variable IQ-Wert, dann handelt es sich nicht um MCAR !
TLDR : weder von den beobachteten noch von den fehlenden Daten beeinflusst => Completely At Random
Typ II: Missing at Random (MAR)
Die fehlenden Daten werden hier nur von den vollständigen (beobachteten) Variablen beeinflusst und nicht von den Merkmalen der fehlenden Daten selbst. Mit anderen Worten, ein fehlender Datenpunkt steht nicht im Zusammenhang mit den fehlenden Daten, sondern mit einigen (oder allen) beobachteten Daten. Das folgende Beispiel veranschaulicht die Situation und macht sie deutlicher :
Wir konnten leicht feststellen, dass die IQ-Werte für Jugendliche ( Alter < 44 Jahre ) fehlen und somit die fehlenden Daten von den beobachteten Daten abhängen, aber es gibt keine Abhängigkeit von den Werten der fehlenden Spalte selbst.
TLDR : nicht durch die fehlenden Daten selbst verursacht, sondern durch beobachtete Daten beeinflusst => At Random
Typ III: Missing Not at Random (MNAR)
Es handelt sich weder um Typ I noch um Typ II , und die Daten fehlen aufgrund der fehlenden Spalte selbst , z.B. weist das folgende Beispiel auf die Tatsache hin, dass Daten zum IQ-Wert fehlen, wobei nur die Personen einen niedrigen Wert haben .
Wie Sie sehen können, ist es unmöglich, MNAR-Fälle zu erkennen, ohne die fehlenden Werte zu kennen!
TLDR : verursacht durch die fehlenden Daten selbst => Not At Random
hier ist eine nicht erschöpfende Liste über die Bewältigung und den Umgang mit fehlenden Daten Probleme :
Methode 1: Löschung
es fällt unter zwei verschiedene Techniken :
- Listenweises Löschen: Bei dieser Methode wird ein ganzer Datensatz von der Analyse ausgeschlossen, wenn ein einziger Wert fehlt, so dass wir für alle Analysen die gleiche Anzahl N (Datensätze) haben.
- Paarweises Löschen: Bei unserer Analyse variiert die Anzahl der berücksichtigten Datensätze, die mit „N“ bezeichnet wird, je nach untersuchter Variable (Spalte). So könnten wir beispielsweise den Mittelwert für zwei Merkmale (vollständig vs. fehlend) berechnen und bei der Division durch die Anzahl der Stichproben durch verschiedene N dividieren, wobei das eine die Gesamtzahl der Zeilen und das andere die Gesamtzahl der vollständigen Werte für das fehlende Merkmal ist.
Methode 2: Einzelwert-Imputationsmethoden
- Einzelwert-Imputation: Ersetzen des fehlenden Wertes durch einen Einzelwert unter Verwendung einer Strategie wie: Mittelwert , Median , Häufigste , Mittlere Person , … des entsprechenden Merkmals.
- Ähnlichkeit : Versuch, die der Zeile mit dem fehlenden Wert am nächsten liegende(n) Zeile(n) zu finden und eine Strategie zu wählen, um dem fehlenden Wert einen Wert zuzuweisen.
- Regressions-Imputation : Bei der einfachen Regressions-Imputation wird der imputierte Wert aus einer Regressionsgleichung vorhergesagt, wir nehmen an, dass die fehlenden Werte in einer Regressionsgeraden mit einer Steigung ungleich Null mit einem der vollständigen Merkmale ( Prädiktoren ) liegen.
Methode 3: Multiple Imputationsmethoden
- Erwartungs-Maximierungs-Algorithmus : ein Algorithmus, der sowohl für die Imputation von fehlenden Daten als auch für die Aufgabe des maschinellen Lernens (unter Berücksichtigung des Ziels als fehlendes Merkmal) verwendet werden kann, er basiert auf zwei Schritten:
– Erstens: Erwartung des fehlenden Wertes
– Zweitens: Maximierung der Wahrscheinlichkeit
Ich empfehle Andrew NG stanford notes, um ihn sehr gut zu verstehen, es ist kein schwieriger Algorithmus, haben Sie keine Angst vor seinen Formeln! http://cs229.stanford.edu/notes/cs229-notes8.pdf
- MI-Methoden : Es handelt sich um eine attraktive Methode zur Behandlung fehlender Daten in der multivariaten Analyse. Die Idee der multiplen Imputation für fehlende Daten wurde zuerst von Rubin vorgeschlagen, sie besteht darin, die Ergebnisse über mehrere imputierte Datensätze zu mitteln, um dies zu berücksichtigen. Alle Methoden der multiplen Imputation folgen drei Schritten:
- Imputation – Ähnlich wie bei der einfachen Imputation werden fehlende Werte imputiert. Allerdings werden die imputierten Werte nicht nur einmal, sondern m-mal aus einer Verteilung gezogen. Am Ende dieses Schritts sollten m vollständige Datensätze vorhanden sein.
- Analyse – Jeder der m Datensätze wird analysiert. Am Ende dieses Schritts sollten m Analysen vorliegen.
- Pooling – Die m Ergebnisse werden zu einem Ergebnis zusammengefasst, indem der Mittelwert, die Varianz und das Konfidenzintervall der betreffenden Variable berechnet werden.
Danke für Ihre Zeit und Aufmerksamkeit, lernen Sie weiter!
Wenn Sie mich auf Linkedin erreichen möchten, wäre ich Ihnen sehr dankbar