Brakujące dane, ich rodzaje i statystyczne metody radzenia sobie z nimi

8 listopada, 2019 – 6 min read

While learning , większość naukowców danych i entuzjastów próbuje radzić sobie ze słynnymi zestawami danych, takimi jak MNIST , ImageNet , … które są kompletne, czyste i dobrze sformatowane. Jednak problemy świata rzeczywistego i zbiory danych są niestety dalekie od tej akademickiej utopii. Innymi słowy, nie są one wcale doskonałe, zawierają szum, zawierają wiele brakujących danych, a czasami nie są również dobrze ustrukturyzowane lub sformatowane.

W tym poście , mamy zamiar porozmawiać o jednym z tych uciążliwych problemów , które będą wyskakiwać często , i bez dalszych ado jak wspomniano w tytule , zajmiemy się problemem „brakujących danych” z szerokiej i statystycznej perspektywy

Po pierwsze , co mamy na myśli konkretnie przez „brakujące dane” ?

Brakujące dane oznacza, że jedna lub więcej zmiennych ( cechy ) wartości brakuje ogólnie kodowane przez -999 , nan , null . . często występuje podczas zbierania danych w niewłaściwy sposób, brak danych (np. ocena użytkowników) lub błędy podczas wprowadzania danych (pomyłki), a to może prowadzić do drastycznych ustaleń i wniosków, które mogą mieć negatywny wpływ na decyzje!

Następujący rysunek ilustruje uderzający przykład „systemów rekomendacyjnych”, kiedy problem „brakujących danych” występuje często, ponieważ część naszych danych zależy od opinii użytkowników .

Credits : X . Amatrian

powoduje również wiele trudności dla badaczy podczas analizowania i interpretowania wyników ich badań w celu wyciągnięcia wniosków .

Są trzy rodzaje brakujących danych:
1) Brakujące Całkowicie i Losowo – (MCAR).
2) Brakujące Losowo – (MAR).
3) Brakujące Nie Losowo – (MNAR).

Typ I: Missing Completely at Random (MCAR)
Nie ma żadnego związku między tym, czy brakuje punktu danych a jakimikolwiek wartościami w zbiorze danych (brakującymi lub obserwowanymi) .Brakujące dane są po prostu losowym podzbiorem danych . The missingness nie ma nic wspólnego z żadną inną zmienną . Przy okazji, dane rzadko są MCAR.

następujący przykład przedstawia ten rodzaj problemu :

Credits : Iris Eekhout

Stosunkowo łatwo jest sprawdzić założenie, że w naszym przykładzie dane są brakujące całkowicie losowo. Jeśli potrafisz przewidzieć jakikolwiek powód braku danych (np, za pomocą zdrowego rozsądku, regresji lub innej metody), czy to na podstawie kompletnej zmiennej Wiek, czy brakującej zmiennej Wynik IQ , to dane nie są MCAR !

TLDR : nie mają na nie wpływu ani obserwowane, ani brakujące dane =>Zupełnie Losowo

Typ II: Brakujące dane losowe (MAR)
Na brakujące dane w tym przypadku mają wpływ tylko kompletne (obserwowane ) zmienne, a nie właściwości samych brakujących danych. Innymi słowy, dla punktu danych, bycie brakującym nie jest związane z brakującymi danymi, ale jest związane z niektórymi ( lub wszystkimi ) obserwowanymi danymi, następujący przykład przedstawi sytuację i uczyni ją bardziej jasną :

Credits : Iris Eekhout

Możemy łatwo zauważyć, że brakuje wyniku IQ dla osób młodych ( wiek < 44 yo ) , a zatem brakujące dane zależą od danych obserwowanych , jednak nie ma zależności z wartościami samej brakującej kolumny .

TLDR : nie jest spowodowany przez sam brak danych, ale ma wpływ na obserwowane dane => At Random

Typ III: Missing Not at Random (MNAR)
Nie jest to ani typ I ani typ II , a dane będą brakujące w oparciu o samą brakującą kolumnę , na przykład następujący przykład wskazuje na fakt, że brakuje danych na temat wyniku IQ z tylko osób o niskim wyniku .

Credits : Iris Eekhout

jak widać , nie da się wykryć przypadków MNAR bez znajomości brakujących wartości !

TLDR : spowodowane przez same brakujące dane => Not At Random

tutaj znajduje się niewyczerpująca lista dotycząca radzenia sobie z problemami brakujących danych :

Metoda 1: Usuwanie

obejmuje ona dwie różne techniki :

  • Listwise Deletion : W tej metodzie, cały rekord jest wyłączony z analizy, jeśli brakuje jakiejkolwiek pojedynczej wartości, a zatem mamy to samo N (liczba rekordów) dla wszystkich analiz .
  • Pairwise Deletion : podczas naszej analizy liczba rekordów branych pod uwagę oznaczana jako „N” będzie się różnić w zależności od badanej zmiennej (kolumny), i na przykład moglibyśmy obliczyć średnią dla 2 cech (kompletna VS brakująca) i podczas dzielenia przez liczbę próbek, kończymy dzieląc przez różne N, jeden jest całkowitą liczbą wierszy, a drugi jest całkowitą liczbą kompletnych wartości na brakującej cechy.

Metoda 2: Metody imputacji pojedynczej

  • Imputacja pojedynczej wartości : zastąpienie brakującej wartości pojedynczą wartością wykorzystującą jedną strategię, taką jak : Mean , Median , Most Frequent , Mean Person , … odpowiedniej cechy .
  • Similarity : próba znalezienia najbliższego ( top-N bliższego ) wiersza (wierszy) do wiersza zawierającego naszą brakującą wartość , i ustalenie strategii wśród nich w celu przypisania wartości do naszej brakującej wartości .
  • Imputacja regresji : W imputacji pojedynczej regresji wartość imputowana jest przewidywana z równania regresji , zakładamy, że brakujące wartości znajdują się w linii regresji o niezerowym nachyleniu z jedną z kompletnych cech ( predyktorów )

Metoda 3: Metody imputacji wielokrotnej

  • Algorytm Expectation-Maximization : algorytm, który może być stosowany zarówno do imputacji brakujących danych, jak i do zadań klasteryzacji uczenia maszynowego (biorąc pod uwagę cel jako brakującą cechę), opiera się na dwóch krokach :

– Pierwszy: Oczekiwanie brakującej wartości
– Drugi: Maksymalizacja prawdopodobieństwa

Bardzo polecam Andrew NG stanford notes, aby zrozumieć to bardzo dobrze, nie jest to trudny algorytm, nie bój się jego formuł ! http://cs229.stanford.edu/notes/cs229-notes8.pdf

  • Metody MI : Jest to atrakcyjna metoda do obsługi brakujących danych w analizie wielowymiarowej. Idea wielokrotnej imputacji dla brakujących danych została po raz pierwszy zaproponowana przez Rubina, polega ona na uśrednianiu wyników w wielu imputowanych zestawach danych, aby to uwzględnić. Wszystkie metody imputacji wielokrotnej składają się z trzech kroków:
  1. Imputacja – Podobnie jak w przypadku imputacji pojedynczej, brakujące wartości są imputowane. Jednakże, wartości imputowane są losowane m razy z rozkładu, a nie tylko raz. Na końcu tego kroku powinno być m ukończonych zestawów danych.
  2. Analiza – Każdy z m zestawów danych jest analizowany. Na końcu tego kroku powinno być m analiz.
  3. Pooling – M wyników jest konsolidowanych w jeden wynik poprzez obliczenie średniej, wariancji i przedziału ufności zmiennej zainteresowania.

dzięki za czas i uwagę, kontynuuj naukę !

jeśli chcesz dotrzeć do mnie na Linkedin byłbym bardzo wdzięczny

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.