The Ultimate Guide to Data Cleaning

Valori mancanti

Dato che i valori mancanti sono inevitabili, ci rimane il problema di cosa fare quando li incontriamo. Ignorare i dati mancanti è come scavare buchi in una barca; affonderà.

Ci sono tre, o forse più, modi per affrontarli.

– Uno. Eliminare.

Se i valori mancanti in una colonna si verificano raramente e in modo casuale, allora la soluzione più semplice e più avanzata è quella di eliminare le osservazioni (righe) che hanno valori mancanti.

Se la maggior parte dei valori della colonna sono mancanti, e si verificano in modo casuale, allora una decisione tipica è quella di eliminare l’intera colonna.

Questo è particolarmente utile quando si fanno analisi statistiche, poiché riempire i valori mancanti può produrre risultati inaspettati o distorti.

– Due. Imputare.

Significa calcolare il valore mancante sulla base di altre osservazioni. Ci sono molti metodi per farlo.

– Il primo è usare valori statistici come media, mediana. Tuttavia, nessuno di questi garantisce dati imparziali, specialmente se ci sono molti valori mancanti.

La media è più utile quando i dati originali non sono distorti, mentre la mediana è più robusta, non sensibile agli outlier, e quindi usata quando i dati sono distorti.

In un dato normalmente distribuito, si possono ottenere tutti i valori che sono entro 2 deviazioni standard dalla media. Poi, si riempiono i valori mancanti generando numeri casuali tra (mean — 2 * std) & (mean + 2 * std)

– Secondo. Usare una regressione lineare. Sulla base dei dati esistenti, si può calcolare la linea che si adatta meglio tra due variabili, ad esempio, prezzo della casa vs. dimensione m².

Va bene ricordare che i modelli di regressione lineare sono sensibili ai valori anomali.

– Terzo. A caldo: Copiare valori da altri record simili. Questo è utile solo se avete abbastanza dati disponibili. E può essere applicato a dati numerici e categorici.

Si può adottare l’approccio casuale dove si riempie il valore mancante con un valore casuale. Facendo questo approccio un passo avanti, si può prima dividere il set di dati in due gruppi (strati), basati su qualche caratteristica, per esempio il sesso, e poi riempire i valori mancanti per i diversi generi separatamente, a caso.

Nell’imputazione sequenziale a caldo, la colonna contenente i valori mancanti è ordinata secondo la variabile ausiliaria (o le variabili ausiliarie) in modo che i record che hanno ausiliari simili si presentino in sequenza. Successivamente, ogni valore mancante viene riempito con il valore del primo record successivo disponibile.

Quello che è più interessante è che può essere utilizzata anche l’imputazione 𝑘 nearest neighbour, che classifica i record simili e li mette insieme. Un valore mancante viene quindi riempito trovando prima i 𝑘 record più vicini al record con valori mancanti. Successivamente, un valore viene scelto (o calcolato) tra i 𝑘 più vicini. Nel caso del calcolo, possono essere usati metodi statistici come la media (come discusso prima).

– Tre. Flag.

Alcuni sostengono che riempire i valori mancanti porta ad una perdita di informazioni, non importa quale metodo di imputazione abbiamo usato.

Questo perché dire che i dati mancano è informativo di per sé, e l’algoritmo dovrebbe saperlo. Altrimenti, stiamo solo rafforzando il modello già esistente da altre caratteristiche.

Questo è particolarmente importante quando i dati mancanti non accadono a caso. Prendiamo ad esempio un sondaggio condotto in cui la maggior parte delle persone di una razza specifica si rifiuta di rispondere a una certa domanda.

I dati numerici mancanti possono essere riempiti con, ad esempio, 0, ma ha questi zeri devono essere ignorati quando si calcola qualsiasi valore statistico o si traccia la distribuzione.

Mentre i dati categorici possono essere riempiti con, ad esempio, “Mancante”: Una nuova categoria che dice che questo dato è mancante.

– Prendi in considerazione …

I valori mancanti non sono la stessa cosa dei valori di default. Per esempio, lo zero può essere interpretato come mancante o predefinito, ma non entrambi.

I valori mancanti non sono “sconosciuti”. Una ricerca condotta in cui alcune persone non ricordano se sono state vittime di bullismo o meno a scuola, dovrebbe essere trattata ed etichettata come sconosciuta e non mancante.

Ogni volta che eliminiamo o imputiamo valori stiamo perdendo informazioni. Quindi, il flagging potrebbe venire in soccorso.

Outliers

Sono valori che sono significativamente diversi da tutte le altre osservazioni. Qualsiasi valore di dati che si trova più di (1,5 * IQR) lontano dai quartili Q1 e Q3 è considerato un outlier.

Gli outlier sono innocenti fino a prova contraria. Detto questo, non dovrebbero essere rimossi a meno che non ci sia una buona ragione per questo.

Per esempio, si possono notare alcuni valori strani e sospetti che sono improbabili, e quindi si decide di rimuoverli. Tuttavia, vale la pena indagare prima di rimuoverli.

Va anche detto che alcuni modelli, come la regressione lineare, sono molto sensibili agli outlier. In altre parole, i valori anomali possono portare il modello fuori da dove si trova la maggior parte dei dati.

In-record &errori tra dataset

Questi errori derivano dall’avere due o più valori nella stessa riga o tra dataset che sono in contraddizione tra loro.

Per esempio, se abbiamo un dataset sul costo della vita nelle città. La colonna totale deve essere equivalente alla somma di affitto, trasporto e cibo.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

Similmente, un bambino non può essere sposato. Il salario di un impiegato non può essere inferiore alle tasse calcolate.

La stessa idea si applica ai dati correlati in diversi insiemi di dati.

Verifica

Una volta fatto, si dovrebbe verificare la correttezza ispezionando nuovamente i dati e assicurandosi che le regole e i vincoli tengano.

Per esempio, dopo aver compilato i dati mancanti, potrebbero violare una delle regole e dei vincoli.

Potrebbe comportare qualche correzione manuale se non fosse possibile altrimenti.

Reporting

Reportare quanto sono sani i dati è altrettanto importante della pulizia.

Come detto prima, pacchetti software o librerie possono generare rapporti delle modifiche fatte, quali regole sono state violate, e quante volte.

Oltre a registrare le violazioni, dovrebbero essere considerate le cause di questi errori. Perché sono accaduti in primo luogo?.

Parole finali …

Se siete arrivati fin qui, sono felice che siate stati in grado di tenere fino alla fine. Ma, niente di quanto menzionato ha valore senza abbracciare la cultura della qualità.

Non importa quanto robusto e forte sia il processo di convalida e pulizia, si continuerà a soffrire man mano che arrivano nuovi dati.

È meglio proteggersi da una malattia invece di spendere tempo e fatica per porvi rimedio.

Queste domande aiutano a valutare e migliorare la qualità dei dati:

Come vengono raccolti i dati, e in quali condizioni? L’ambiente in cui i dati sono stati raccolti è importante. L’ambiente include, ma non solo, il luogo, il tempo, le condizioni atmosferiche, ecc.

Interrogare i soggetti sulla loro opinione riguardo a qualsiasi cosa mentre stanno andando al lavoro non è lo stesso che mentre sono a casa. I pazienti oggetto di uno studio che hanno difficoltà ad usare i tablet per rispondere ad un questionario potrebbero confondere i risultati.

Cosa rappresentano i dati? Include tutti? Solo gli abitanti della città? O, forse, solo quelli che hanno scelto di rispondere perché avevano una forte opinione sull’argomento.

Quali sono i metodi usati per pulire i dati e perché? Metodi diversi possono essere migliori in situazioni diverse o con diversi tipi di dati.

Investite tempo e denaro per migliorare il processo? Investire nelle persone e nel processo è fondamentale quanto investire nella tecnologia.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.