The Ultimate Guide to Data Cleaning

Brakujące wartości

Zważywszy na fakt, że brakujące wartości są nieuniknione, pozostaje nam pytanie, co zrobić, gdy je napotkamy. Ignorowanie brakujących danych jest tym samym, co kopanie dziur w łodzi; zatonie.

Są trzy, a może więcej, sposobów radzenia sobie z nimi.

– Jeden. Drop.

Jeśli brakujące wartości w kolumnie zdarzają się rzadko i występują losowo, to najłatwiejszym i najbardziej przyszłościowym rozwiązaniem jest upuszczenie obserwacji (wierszy), które mają brakujące wartości.

Jeśli brakuje większości wartości w kolumnie i występują one losowo, to typową decyzją jest upuszczenie całej kolumny.

Jest to szczególnie przydatne podczas przeprowadzania analizy statystycznej, ponieważ uzupełnienie brakujących wartości może przynieść nieoczekiwane lub tendencyjne wyniki.

– Dwa. Impute.

To znaczy obliczyć brakującą wartość na podstawie innych obserwacji. Istnieje dość dużo metod, aby to zrobić.

– Pierwszą z nich jest użycie wartości statystycznych takich jak średnia, mediana. Jednak żadna z nich nie gwarantuje bezstronnych danych, zwłaszcza jeśli istnieje wiele brakujących wartości.

Średnia jest najbardziej przydatna, gdy oryginalne dane nie są skośne, podczas gdy mediana jest bardziej solidna, nie jest wrażliwa na wartości odstające, a zatem jest używana, gdy dane są skośne.

W normalnie rozłożonych danych, można uzyskać wszystkie wartości, które są w granicach 2 odchyleń standardowych od średniej. Następnie należy uzupełnić brakujące wartości poprzez wygenerowanie liczb losowych z przedziału (mean — 2 * std) & (mean + 2 * std)

– Po drugie. Zastosowanie regresji liniowej. Na podstawie istniejących danych można obliczyć najlepiej dopasowaną linię między dwiema zmiennymi, powiedzmy, cena domu vs. wielkość m².

Warto wspomnieć, że modele regresji liniowej są wrażliwe na wartości odstające.

– Po trzecie. Hot-deck: Kopiowanie wartości z innych podobnych rekordów. Jest to przydatne tylko wtedy, gdy masz wystarczająco dużo dostępnych danych. I, może być stosowany do danych numerycznych i kategorycznych.

Jeden może podjąć losowe podejście, gdzie wypełniamy brakującą wartość z wartością losową. Biorąc to podejście o krok dalej, można najpierw podzielić zbiór danych na dwie grupy (warstwy), w oparciu o jakąś cechę, powiedzmy płeć, a następnie wypełnić brakujące wartości dla różnych płci oddzielnie, losowo.

W imputacji sekwencyjnej hot-deck, kolumna zawierająca brakujące wartości jest sortowana zgodnie ze zmienną pomocniczą (zmiennymi pomocniczymi) tak, że rekordy, które mają podobne zmienne pomocnicze występują sekwencyjnie. Następnie każda brakująca wartość jest uzupełniana wartością pierwszego następującego po niej dostępnego rekordu.

Co ciekawsze, można również wykorzystać imputację 𝑘 najbliższego sąsiada, która klasyfikuje podobne rekordy i umieszcza je razem. Brakująca wartość jest wtedy uzupełniana poprzez znalezienie najpierw 𝑘 rekordów najbliższych do rekordu z brakującą wartością. Następnie wybierana jest wartość z (lub obliczana z) 𝑘 najbliższych sąsiadów. W przypadku obliczeń można zastosować metody statystyczne, takie jak średnia (omówiona wcześniej).

– Trzy. Flaga.

Niektórzy twierdzą, że wypełnianie brakujących wartości prowadzi do utraty informacji, bez względu na to, jakiej metody imputacji użyliśmy.

To dlatego, że powiedzenie, że brakuje danych, jest samo w sobie informacyjne, a algorytm powinien o tym wiedzieć. W przeciwnym razie, po prostu wzmacniamy wzór już istniejący przez inne cechy.

Jest to szczególnie ważne, gdy brakujące dane nie zdarzają się losowo. Weźmy na przykład przeprowadzoną ankietę, w której większość ludzi z określonej rasy odmawia odpowiedzi na pewne pytanie.

Brakujące dane liczbowe mogą być wypełnione powiedzmy 0, ale mają te zera muszą być ignorowane przy obliczaniu jakiejkolwiek wartości statystycznej lub wykreślaniu rozkładu.

W przeciwieństwie do danych kategorycznych mogą być wypełnione powiedzmy „Brakujące”: Nowa kategoria, która mówi, że ten kawałek danych jest brakujący.

– Weź pod uwagę …

Brakujące wartości nie są takie same jak wartości domyślne. Na przykład, zero może być interpretowane jako brakujące lub domyślne, ale nie oba.

Brakujące wartości nie są „nieznane”. Przeprowadzone badania, gdzie niektórzy ludzie nie pamiętają czy byli zastraszani czy nie w szkole, powinny być traktowane i oznaczane jako nieznane, a nie brakujące.

Za każdym razem, gdy upuszczamy lub imputujemy wartości tracimy informacje. Tak więc, flagowanie może przyjść na ratunek.

Outliers

Są to wartości, które są znacząco różne od wszystkich innych obserwacji. Każda wartość danych, która leży w odległości większej niż (1,5 * IQR) od kwartyli Q1 i Q3, jest uważana za wartość odstającą.

Outylia są niewinne, dopóki nie udowodni się im winy. W związku z tym nie powinny być usuwane, chyba że istnieje ku temu dobry powód.

Na przykład, można zauważyć pewne dziwne, podejrzane wartości, które są mało prawdopodobne, a więc decyduje się je usunąć. Chociaż, warto je zbadać przed usunięciem.

Warto również wspomnieć, że niektóre modele, takie jak regresja liniowa, są bardzo wrażliwe na wartości odstające. Innymi słowy, wartości odstające mogą odrzucić model od miejsca, w którym leży większość danych.

In-record & cross-datasets errors

Błędy te wynikają z posiadania dwóch lub więcej wartości w tym samym wierszu lub w różnych zestawach danych, które są ze sobą sprzeczne.

Na przykład, jeśli mamy zestaw danych o kosztach życia w miastach. Całkowita kolumna musi być równa sumie czynszu, transportu i żywności.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

Podobnie, dziecko nie może być żonaty. Pensja pracownika nie może być mniejsza niż obliczone podatki.

Ta sama idea ma zastosowanie do powiązanych danych w różnych zbiorach danych.

Weryfikacja

Po zakończeniu, należy zweryfikować poprawność poprzez ponowną inspekcję danych i upewnienie się, że reguły i ograniczenia mają zastosowanie.

Na przykład, po wypełnieniu brakujących danych, mogą one naruszyć którąś z reguł i ograniczeń.

Może to wymagać ręcznej korekty, jeśli nie jest to możliwe w inny sposób.

Raportowanie

Raportowanie, jak zdrowe są dane, jest równie ważne jak czyszczenie.

Jak wspomniano wcześniej, pakiety oprogramowania lub biblioteki mogą generować raporty z dokonanych zmian, które reguły zostały naruszone i ile razy.

Oprócz rejestrowania naruszeń, należy rozważyć przyczyny tych błędów. Dlaczego w ogóle do nich doszło?

Słowa końcowe …

Jeśli dotarłeś tak daleko, cieszę się, że udało ci się dotrwać do końca. Ale nic z tego, co zostało wspomniane, nie jest wartościowe bez przyjęcia kultury jakości.

Nieważne, jak solidny i silny jest proces walidacji i czyszczenia, nadal będziemy cierpieć, gdy będą napływać nowe dane.

Lepiej jest chronić się przed chorobą, zamiast poświęcać czas i wysiłek, aby jej zaradzić.

Te pytania pomagają ocenić i poprawić jakość danych:

Jak dane są zbierane i w jakich warunkach? Środowisko, w którym dane zostały zebrane ma znaczenie. Środowisko obejmuje, ale nie ogranicza się do lokalizacji, czasu, warunków pogodowych itp.

Pytanie uczestników o ich opinię na jakikolwiek temat, gdy są w drodze do pracy, nie jest takie samo jak w domu. Pacjenci objęci badaniem, którzy mają trudności z używaniem tabletów do odpowiadania na kwestionariusz, mogą zepsuć wyniki.

Co przedstawiają dane? Czy obejmują wszystkich? Czy tylko mieszkańców miasta? A może tylko tych, którzy zdecydowali się odpowiedzieć, ponieważ mieli silne zdanie na dany temat.

Jakie metody zostały użyte do czyszczenia danych i dlaczego? Różne metody mogą być lepsze w różnych sytuacjach lub z różnymi typami danych.

Czy inwestujesz czas i pieniądze w poprawę procesu? Inwestowanie w ludzi i proces jest równie ważne jak inwestowanie w technologię.

Czy inwestujesz czas i pieniądze w doskonalenie procesu?