Ghidul suprem de curățare a datelor

Valorile lipsă

După faptul că valorile lipsă sunt inevitabile, ne lasă cu întrebarea ce să facem atunci când le întâlnim. A ignora datele lipsă este același lucru cu a săpa găuri într-o barcă; Aceasta se va scufunda.

Există trei, sau poate mai multe, moduri de a le trata.

– Unu. Renunțarea.

Dacă valorile lipsă dintr-o coloană se întâmplă rar și apar la întâmplare, atunci cea mai simplă și mai directă soluție este să renunți la observațiile (rândurile) care au valori lipsă.

Dacă majoritatea valorilor din coloană sunt lipsă și apar la întâmplare, atunci o decizie tipică este să renunți la întreaga coloană.

Acest lucru este deosebit de util atunci când se face o analiză statistică, deoarece completarea valorilor lipsă poate produce rezultate neașteptate sau părtinitoare.

– Doi. Imputare.

Înseamnă să se calculeze valoarea lipsă pe baza altor observații. Există destul de multe metode pentru a face acest lucru.

– Prima este utilizarea valorilor statistice cum ar fi media, mediana. Cu toate acestea, niciuna dintre acestea nu garantează date imparțiale, mai ales dacă există multe valori lipsă.

Mediana este mai utilă atunci când datele originale nu sunt înclinate, în timp ce mediana este mai robustă, nu este sensibilă la valorile aberante și, prin urmare, este utilizată atunci când datele sunt înclinate.

În cazul unor date distribuite în mod normal, se pot obține toate valorile care se află în interiorul a 2 deviații standard de la medie. Apoi, se completează valorile lipsă prin generarea de numere aleatoare între (mean — 2 * std) & (mean + 2 * std)

– Al doilea. Folosind o regresie liniară. Pe baza datelor existente, se poate calcula cea mai bună linie de potrivire între două variabile, de exemplu, prețul casei vs. dimensiunea m².

Vă rog să menționați că modelele de regresie liniară sunt sensibile la valorile aberante.

– Al treilea. Puntea fierbinte: Copierea valorilor din alte înregistrări similare. Acest lucru este util numai dacă aveți suficiente date disponibile. Și, se poate aplica la date numerice și categorice.

Se poate adopta abordarea aleatorie, în care completăm valoarea lipsă cu o valoare aleatorie. Ducând această abordare cu un pas mai departe, se poate împărți mai întâi setul de date în două grupuri (straturi), pe baza unei anumite caracteristici, de exemplu sexul, și apoi se completează valorile lipsă pentru diferitele sexe separat, în mod aleatoriu.

În imputația secvențială hot-deck, coloana care conține valorile lipsă este sortată în funcție de variabila (variabilele) auxiliară (auxiliare), astfel încât înregistrările care au auxiliare similare să apară secvențial. Apoi, fiecare valoare lipsă este completată cu valoarea primei înregistrări următoare disponibile.

Ceea ce este mai interesant este că se poate utiliza și imputația 𝑘 a vecinului cel mai apropiat, care clasifică înregistrările similare și le pune împreună. O valoare lipsă este apoi completată prin găsirea mai întâi a înregistrărilor 𝑘 cele mai apropiate de înregistrarea cu valori lipsă. Apoi, se alege o valoare din (sau se calculează din) cei 𝑘 cei mai apropiați vecini. În cazul calculului, se pot utiliza metode statistice precum media (așa cum s-a discutat anterior).

– Trei. Flag.

Cei care susțin că completarea valorilor lipsă duce la o pierdere de informații, indiferent de metoda de imputare pe care am folosit-o.

Aceasta pentru că a spune că datele lipsesc este informativ în sine, iar algoritmul ar trebui să știe despre asta. Altfel, nu facem decât să întărim modelul deja existent prin alte caracteristici.

Acest lucru este deosebit de important atunci când datele lipsă nu se întâmplă la întâmplare. Să luăm, de exemplu, un sondaj efectuat în care majoritatea persoanelor dintr-o anumită rasă refuză să răspundă la o anumită întrebare.

Datele numerice lipsă pot fi completate cu, să zicem, 0, dar are aceste zerouri trebuie ignorate atunci când se calculează orice valoare statistică sau se trasează distribuția.

În timp ce datele categorice pot fi completate cu, să zicem, „Lipsește”: O nouă categorie care spune că această bucată de date lipsește.

– Luați în considerare …

Valorile lipsă nu sunt același lucru cu valorile implicite. De exemplu, zero poate fi interpretat fie ca lipsă, fie ca implicită, dar nu ambele.

Valorile lipsă nu sunt „necunoscute”. O cercetare efectuată în care unele persoane nu și-au amintit dacă au fost sau nu agresate la școală, ar trebui să fie tratată și etichetată ca fiind necunoscută și nu lipsă.

De fiecare dată când renunțăm sau imputăm valori pierdem informații. Așadar, marcarea ar putea veni în ajutor.

Outliers

Sunt valori care sunt semnificativ diferite de toate celelalte observații. Orice valoare de date care se află la o distanță mai mare de (1,5 * IQR) față de cuartilele Q1 și Q3 este considerată o valoare aberantă.

Outlierii sunt nevinovați până la proba contrarie. Acestea fiind spuse, ei nu ar trebui eliminați decât dacă există un motiv întemeiat pentru asta.

De exemplu, se pot observa niște valori ciudate, suspecte, care este puțin probabil să se întâmple, și astfel se decide să le eliminăm. Deși, acestea merită investigate înainte de a fi eliminate.

De asemenea, merită menționat faptul că unele modele, cum ar fi regresia liniară, sunt foarte sensibile la valorile aberante. Cu alte cuvinte, valorile aberante ar putea arunca modelul în afara locului unde se află majoritatea datelor.

Înregistrare & erori între seturi de date

Aceste erori rezultă din faptul că avem două sau mai multe valori în același rând sau între seturi de date care se contrazic între ele.

De exemplu, dacă avem un set de date despre costul vieții în orașe. Coloana total trebuie să fie echivalentă cu suma dintre chirie, transport și hrană.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

În mod similar, un copil nu poate fi căsătorit. Salariul unui angajat nu poate fi mai mic decât impozitele calculate.

Aceeași idee se aplică și în cazul datelor conexe din diferite seturi de date.

Verificarea

Când se termină, trebuie verificată corectitudinea prin reinterogarea datelor și asigurarea că regulile și constrângerile se mențin.

De exemplu, după completarea datelor lipsă, acestea ar putea încălca oricare dintre regulile și constrângerile.

Ar putea implica unele corecții manuale, dacă nu este posibil altfel.

Raportare

Raportarea modului în care datele sunt sănătoase, este la fel de importantă ca și curățarea.

Cum s-a menționat anterior, pachetele software sau bibliotecile pot genera rapoarte cu privire la modificările efectuate, ce reguli au fost încălcate și de câte ori.

În plus față de înregistrarea încălcărilor, ar trebui luate în considerare cauzele acestor erori. De ce s-au întâmplat în primul rând?”

Cuvintele finale …

Dacă ați ajuns până aici, mă bucur că ați reușit să rezistați până la sfârșit. Dar, Nimic din cele menționate nu este valoros fără a îmbrățișa cultura calității.

Nu contează cât de robust și puternic este procesul de validare și curățare, se va continua să se sufere pe măsură ce vin date noi.

Este mai bine să te protejezi împotriva unei boli în loc să petreci timp și efort pentru a o remedia.

Aceste întrebări ajută la evaluarea și îmbunătățirea calității datelor:

Cum sunt colectate datele și în ce condiții? Mediul în care au fost colectate datele contează. Mediul include, dar nu se limitează la, locația, momentul, condițiile meteorologice etc.

Interogarea subiecților cu privire la părerea lor cu privire la orice în timp ce sunt în drum spre serviciu nu este același lucru cu cel în care sunt acasă. Pacienții care fac obiectul unui studiu și care au dificultăți în utilizarea tabletelor pentru a răspunde la un chestionar ar putea să dea rezultate eronate.

Ce reprezintă datele? Îi include pe toți? Doar persoanele din oraș? Sau, poate, doar pe cei care au ales să răspundă pentru că aveau o opinie puternică despre subiect.

Ce metode sunt folosite pentru a curăța datele și de ce? Metode diferite pot fi mai bune în situații diferite sau cu tipuri de date diferite.

Investiți timp și bani în îmbunătățirea procesului? Investiția în oameni și în proces este la fel de importantă ca și investiția în tehnologie.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.