Konečný průvodce čištěním dat

Chybějící hodnoty

Vzhledem k tomu, že chybějícím hodnotám se nelze vyhnout, vyvstává otázka, co dělat, když na ně narazíme. Ignorovat chybějící údaje je stejné jako kopat díry do lodi; ta se potopí.

Existují tři, nebo možná i více způsobů, jak se s nimi vypořádat.

– První. Vynechat.

Pokud se chybějící hodnoty ve sloupci vyskytují zřídka a náhodně, pak je nejjednodušším a nejpřednějším řešením vynechat pozorování (řádky), která mají chybějící hodnoty.

Pokud chybí většina hodnot sloupce a vyskytují se náhodně, pak je typickým rozhodnutím vynechat celý sloupec.

To je užitečné zejména při provádění statistické analýzy, protože doplnění chybějících hodnot může přinést neočekávané nebo zkreslené výsledky.

– Druhý. Impute.

To znamená dopočítat chybějící hodnotu na základě jiných pozorování. Existuje poměrně hodně metod, jak to provést.

– První z nich je použití statistických hodnot, jako je průměr, medián. Žádný z nich však nezaručuje nezkreslená data, zejména pokud je mnoho chybějících hodnot.

Medián je nejužitečnější, pokud původní data nejsou zkreslená, zatímco medián je robustnější, není citlivý na odlehlé hodnoty, a proto se používá, pokud jsou data zkreslená.

Při normálně rozložených datech lze získat všechny hodnoty, které jsou do 2 směrodatných odchylek od průměru. Dále doplníme chybějící hodnoty generováním náhodných čísel v rozmezí (mean — 2 * std) & (mean + 2 * std)

– Za druhé. Pomocí lineární regrese. Na základě existujících údajů lze vypočítat nejlépe odpovídající přímku mezi dvěma proměnnými, například cenou domu v závislosti na velikosti m².

Je třeba zmínit, že lineární regresní modely jsou citlivé na odlehlé hodnoty.

– Za třetí. Horké patro: Kopírování hodnot z jiných podobných záznamů. To je užitečné pouze v případě, že máte k dispozici dostatek dat. A lze ji použít pro číselné i kategoriální údaje.

Můžeme použít náhodný přístup, kdy chybějící hodnotu doplníme náhodnou hodnotou. Pokud tento přístup posuneme o krok dále, můžeme soubor dat nejprve rozdělit do dvou skupin (vrstev) na základě nějaké charakteristiky, řekněme pohlaví, a pak náhodně doplnit chybějící hodnoty pro různá pohlaví zvlášť.

Při sekvenční imputaci za tepla je sloupec obsahující chybějící hodnoty seřazen podle pomocné proměnné (pomocných proměnných) tak, aby se záznamy, které mají podobné pomocné proměnné, vyskytovaly postupně. Poté se každá chybějící hodnota doplní hodnotou prvního následujícího dostupného záznamu.

Zajímavější je, že lze využít i imputaci 𝑘 nejbližšího souseda, která klasifikuje podobné záznamy a dává je dohromady. Chybějící hodnota se pak doplní tak, že se nejprve najdou 𝑘 záznamy nejbližší záznamu s chybějícími hodnotami. Poté se vybere hodnota z 𝑘 nejbližších sousedů (nebo se z nich vypočítá). V případě výpočtu lze použít statistické metody, jako je průměr (jak bylo uvedeno dříve).

– Tři. Příznak.

Někteří tvrdí, že doplnění chybějících hodnot vede ke ztrátě informace bez ohledu na to, jakou metodu imputace jsme použili.

To proto, že konstatování, že data chybí, je samo o sobě informativní a algoritmus by o tom měl vědět. V opačném případě jen posilujeme vzorec, který již existuje pomocí jiných rysů.

To je důležité zejména tehdy, když chybějící data nevznikají náhodně. Vezměme si například provedený průzkum, kde většina lidí určité rasy odmítne odpovědět na určitou otázku.

Chybějící číselné údaje lze vyplnit řekněme 0, ale má tyto nuly je třeba ignorovat při výpočtu jakékoli statistické hodnoty nebo vykreslení rozdělení.

Kategoriální údaje lze vyplnit řekněme „chybí“:

– Vezměte v úvahu …

Chybějící hodnoty nejsou stejné jako výchozí hodnoty. Například nulu lze interpretovat buď jako chybějící, nebo jako výchozí, ale ne jako obojí.

Chybějící hodnoty nejsou „neznámé“. Provedený výzkum, kdy si někteří lidé nepamatovali, zda byli ve škole šikanováni, nebo ne, by měl být považován a označen jako neznámý a ne jako chybějící.

Při každém vypuštění nebo imputování hodnot přicházíme o informace. Na pomoc tedy může přijít označování.

Outliers

Jsou to hodnoty, které se výrazně liší od všech ostatních pozorování. Každá hodnota dat, která leží více než (1,5 * IQR) od kvartilů Q1 a Q3, je považována za odlehlou hodnotu.

Outliers jsou nevinné, dokud není prokázána vina. S ohledem na to by neměly být odstraňovány, pokud k tomu není dobrý důvod.

Například si lze všimnout některých podivných, podezřelých hodnot, které jsou nepravděpodobné, a tak se rozhodne je odstranit. I když stojí za to je před odstraněním prozkoumat.

Je třeba také zmínit, že některé modely, například lineární regrese, jsou velmi citlivé na odlehlé hodnoty. Jinými slovy, odlehlé hodnoty mohou model vychýlit od místa, kde leží většina dat.

Chyby v záznamu &křížových datových sad

Tyto chyby vznikají tím, že v jednom řádku nebo napříč datovými sadami máme dvě nebo více hodnot, které si navzájem odporují.

Příklad pokud máme datovou sadu o životních nákladech ve městech. Sloupec celkem musí odpovídat součtu nájemného, dopravy a jídla.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

Podobně dítě nemůže být ženaté. Plat zaměstnance nesmí být nižší než vypočtené daně.

Stejná myšlenka platí i pro související údaje v různých souborech dat.

Ověření

Po dokončení je třeba ověřit správnost opětovnou kontrolou údajů a ujistit se, že pravidla a omezení platí.

Například po doplnění chybějících údajů mohou porušit některé z pravidel a omezení.

Může to znamenat určitou ruční opravu, pokud to není možné jinak.

Zaznamenávání

Stejně důležité jako čištění je i zaznamenávání toho, jak jsou data zdravá.

Jak již bylo zmíněno, softwarové balíky nebo knihovny mohou generovat zprávy o provedených změnách, o tom, která pravidla byla porušena a kolikrát.

Kromě zaznamenávání porušení je třeba zvážit příčiny těchto chyb. Proč k nim vůbec došlo.“

Slova na závěr …

Pokud jste se dostali až sem, jsem rád, že jste vydrželi až do konce. Ale nic z toho, co bylo zmíněno, nemá cenu bez přijetí kultury kvality.

Nezáleží na tom, jak robustní a silný je proces validace a čištění, člověk bude stále trpět, jak budou přicházet nová data.

Je lepší chránit se před nemocí, než vynakládat čas a úsilí na její nápravu.

Tyto otázky pomáhají vyhodnotit a zlepšit kvalitu dat:

Jak jsou data shromažďována a za jakých podmínek? Záleží na prostředí, ve kterém byla data shromážděna. Prostředí zahrnuje mimo jiné místo, čas, povětrnostní podmínky atd.

Ptát se subjektů na jejich názor ohledně čehokoli, když jsou na cestě do práce, není totéž jako když jsou doma. Pacienti v rámci studie, kteří mají potíže s používáním tabletů při vyplňování dotazníku, by mohli výsledky zkreslit.

Co údaje představují? Zahrnují všechny osoby? Pouze obyvatelé města? Nebo snad jen ty, kteří se rozhodli odpovědět, protože mají na dané téma vyhraněný názor.

Jaké metody byly použity k očištění dat a proč? Různé metody mohou být lepší v různých situacích nebo u různých typů dat.

Investujete čas a peníze do zlepšení procesu? Investice do lidí a procesu jsou stejně důležité jako investice do technologie.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.