O Guia Final de Limpeza de Dados

Valores em falta

Porque os valores em falta são inevitáveis deixa-nos com a questão do que fazer quando os encontramos. Ignorar os dados em falta é o mesmo que cavar buracos num barco; Vai afundar.

Existem três, ou talvez mais, formas de lidar com eles.

– Uma. Drop.

Se os valores em falta numa coluna raramente acontecem e ocorrem aleatoriamente, então a solução mais fácil e mais avançada é largar as observações (linhas) que têm valores em falta.

Se a maioria dos valores da coluna estão em falta e ocorrem aleatoriamente, então uma decisão típica é largar toda a coluna.

Isso é particularmente útil ao fazer análise estatística, uma vez que o preenchimento dos valores em falta pode produzir resultados inesperados ou tendenciosos.

– Dois. Impute.

É o cálculo do valor em falta com base em outras observações. Há muitos métodos para fazer isso.

– O primeiro é usar valores estatísticos como média, mediana. No entanto, nenhum destes garante dados imparciais, especialmente se houver muitos valores em falta.

Mean é mais útil quando os dados originais não são enviesados, enquanto a mediana é mais robusta, não sensível a outliers, e assim usada quando os dados são enviesados.

Em um dado normalmente distribuído, pode-se obter todos os valores que estão dentro de 2 desvios padrão da média. Em seguida, preencha os valores em falta gerando números aleatórios entre (mean — 2 * std) & (mean + 2 * std)

– Segundo. Usando uma regressão linear. Com base nos dados existentes, pode-se calcular a linha de melhor ajuste entre duas variáveis, digamos, preço da casa vs. tamanho m².

– Vale mencionar que os modelos de regressão linear são sensíveis a outliers.

– Terceiro. Deck quente: Cópia de valores de outros registos semelhantes. Isto só é útil se você tiver dados suficientes disponíveis. E, ele pode ser aplicado a dados numéricos e categóricos.

Um pode fazer a abordagem aleatória onde nós preenchemos o valor em falta com um valor aleatório. Levando esta abordagem um passo adiante, pode-se primeiro dividir o conjunto de dados em dois grupos (estratos), com base em alguma característica, digamos gênero, e depois preencher os valores ausentes para diferentes gêneros separadamente, ao acaso.

Na imputação seqüencial de hot-deck, a coluna contendo valores ausentes é ordenada de acordo com a(s) variável(s) auxiliar(es), de modo que os registros que têm auxiliares semelhantes ocorram seqüencialmente. Em seguida, cada valor em falta é preenchido com o valor do primeiro registro seguinte disponível.

O que é mais interessante é que 𝑘 imputação vizinha mais próxima, que classifica registros semelhantes e os coloca juntos, também pode ser utilizado. Um valor em falta é então preenchido encontrando primeiro os registos 𝑘 mais próximos do registo com valores em falta. Em seguida, um valor é escolhido (ou calculado a partir) dos vizinhos mais próximos do 𝑘. No caso de computação, métodos estatísticos como a média (como discutido anteriormente) podem ser usados.

– Três. Flag.

alguns argumentam que o preenchimento dos valores em falta leva a uma perda de informação, independentemente do método de imputação utilizado.

Isso porque dizer que os dados estão em falta é informativo em si, e o algoritmo deve saber sobre isso. Caso contrário, estamos apenas reforçando o padrão já existente por outras características.

Isso é particularmente importante quando os dados ausentes não acontecem de forma aleatória. Por exemplo, um inquérito conduzido onde a maioria das pessoas de uma raça específica se recusa a responder a uma determinada questão.

Os dados numéricos em falta podem ser preenchidos com, digamos, 0, mas estes zeros devem ser ignorados ao calcular qualquer valor estatístico ou ao traçar a distribuição.

Embora os dados categóricos possam ser preenchidos com, digamos, “Em falta”: Uma nova categoria que diz que este dado está faltando.

– Levar em consideração …

Valores ausentes não são os mesmos que os valores padrão. Por exemplo, zero pode ser interpretado como ausente ou padrão, mas não ambos.

Valores ausentes não são “desconhecidos”. Uma pesquisa conduzida onde algumas pessoas não se lembram se foram intimidadas ou não na escola, deve ser tratada e rotulada como desconhecida e não desaparecida.

A cada vez que deixamos cair ou imputamos valores, estamos perdendo informações. Assim, sinalizar pode vir em socorro.

Outliers

São valores que são significativamente diferentes de todas as outras observações. Qualquer valor de dados que esteja a mais de (1,5 * IQR) dos quartis Q1 e Q3 é considerado um outlier.

Os outliers são inocentes até prova em contrário. Dito isto, eles não devem ser removidos a menos que haja uma boa razão para isso.

Por exemplo, pode-se notar alguns valores estranhos e suspeitos que são improváveis de acontecer, e assim se decide removê-los. No entanto, vale a pena investigar antes de removê-los.

Também vale a pena mencionar que alguns modelos, como a regressão linear, são muito sensíveis a outliers. Em outras palavras, os outliers podem jogar o modelo fora de onde está a maioria dos dados.

Em registro & Erros de conjuntos de dados cruzados

Esses erros resultam de ter dois ou mais valores na mesma linha ou entre conjuntos de dados que contradizem um com o outro.

Por exemplo, se tivermos um conjunto de dados sobre o custo de vida nas cidades. A coluna total deve ser equivalente à soma do aluguel, transporte e alimentação.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

Simplesmente, um filho não pode ser casado. O salário de um empregado não pode ser inferior aos impostos calculados.

A mesma ideia aplica-se aos dados relacionados entre diferentes conjuntos de dados.

Verificando

Quando feito, deve-se verificar se os dados estão correctos, reinspeccionando os dados e certificando-se de que as regras e restrições se mantêm.

Por exemplo, depois de preencher os dados em falta, eles podem violar qualquer uma das regras e restrições.

Pode envolver alguma correção manual se não for possível de outra forma.

Relatar

Relatar quão saudáveis os dados são, é igualmente importante para a limpeza.

Como mencionado anteriormente, pacotes de software ou bibliotecas podem gerar relatórios das alterações feitas, quais regras foram violadas e quantas vezes.

Além de registrar as violações, as causas desses erros devem ser consideradas. Por que eles aconteceram em primeiro lugar?.

Palavras finais …

Se você chegou tão longe, eu estou feliz que você foi capaz de segurar até o final. Mas, nada do que foi mencionado tem valor sem abraçar a cultura de qualidade.

Por mais robusto e forte que seja o processo de validação e limpeza, continuaremos a sofrer com a chegada de novos dados.

É melhor proteger-se contra uma doença em vez de gastar tempo e esforço para a remediar.

Estas perguntas ajudam a avaliar e melhorar a qualidade dos dados:

Como os dados são recolhidos, e sob que condições? O ambiente onde os dados foram coletados é importante. O ambiente inclui, mas não se limita ao local, tempo, condições meteorológicas, etc.

Questionar os sujeitos sobre a sua opinião sobre o que quer que seja enquanto estão a caminho do trabalho não é o mesmo que enquanto estão em casa. Pacientes sob um estudo que têm dificuldades em usar os comprimidos para responder a um questionário poderão descartar os resultados.

O que os dados representam? Inclui todos? Apenas as pessoas da cidade? Ou, talvez, apenas aqueles que optaram por responder porque tinham uma opinião forte sobre o tópico.

Quais são os métodos usados para limpar os dados e porquê? Métodos diferentes podem ser melhores em situações diferentes ou com tipos de dados diferentes.

Você investe tempo e dinheiro para melhorar o processo? Investir nas pessoas e no processo é tão crítico quanto investir na tecnologia.

Deixe uma resposta

O seu endereço de email não será publicado.