A végső útmutató az adattisztításhoz

Kihagyott értékek

A hiányzó értékek elkerülhetetlenek, így felmerül a kérdés, hogy mit tegyünk, ha találkozunk velük. A hiányzó adatok figyelmen kívül hagyása olyan, mintha lyukat ásnánk egy csónakba; El fog süllyedni.

Három, vagy talán több módja is van a kezelésüknek.

– Egy. Eldobás.

Ha egy oszlopban a hiányzó értékek ritkán fordulnak elő, és véletlenszerűen fordulnak elő, akkor a legegyszerűbb és legelőremutatóbb megoldás a hiányzó értékeket tartalmazó megfigyelések (sorok) elhagyása.

Ha az oszlop legtöbb értéke hiányzik, és véletlenszerűen fordul elő, akkor tipikus döntés az egész oszlop elhagyása.

Ez különösen hasznos a statisztikai elemzés során, mivel a hiányzó értékek pótlása váratlan vagy torzított eredményeket adhat.

– Két. Impute.

A hiányzó érték kiszámítását jelenti más megfigyelések alapján. Erre elég sokféle módszer létezik.

– Az első a statisztikai értékek, például az átlag, a medián használata. Ezek közül azonban egyik sem garantálja a torzítatlan adatokat, különösen, ha sok hiányzó érték van.

A középérték akkor a leghasznosabb, ha az eredeti adatok nem ferdék, míg a medián robusztusabb, nem érzékeny a kiugró értékekre, ezért ferde adatok esetén használják.

Normális eloszlású adatok esetén az összes olyan értéket megkaphatjuk, amely az átlagtól 2 szóráson belül van. Ezután a hiányzó értékeket a (mean — 2 * std) & (mean + 2 * std)

– (mean — 2 * std) & (mean + 2 * std)

– közötti véletlen számok generálásával töltsük ki másodszor. Lineáris regresszió segítségével. A meglévő adatok alapján kiszámíthatjuk a legjobban illeszkedő egyenest két változó között, mondjuk a lakásár vs. m²-es méret.

Meg kell említeni, hogy a lineáris regressziós modellek érzékenyek a kiugró értékekre.

– Harmadszor. Hot-deck: Értékek másolása más hasonló rekordokból. Ez csak akkor hasznos, ha elegendő rendelkezésre álló adat áll rendelkezésünkre. És, numerikus és kategorikus adatokra is alkalmazható.

Választhatjuk a véletlenszerű megközelítést, ahol a hiányzó értéket egy véletlenszerű értékkel töltjük ki. Ha ezt a megközelítést egy lépéssel továbbvisszük, akkor először feloszthatjuk az adathalmazt két csoportra (rétegre) valamilyen jellemző, mondjuk a nem alapján, majd a különböző nemek hiányzó értékeit külön-külön, véletlenszerűen kitölthetjük.

A szekvenciális hot-deck imputációban a hiányzó értékeket tartalmazó oszlopot a segédváltozó(k) szerint rendezzük, így a hasonló segédváltozókkal rendelkező rekordok egymás után következnek. Ezután minden hiányzó értéket az első következő elérhető rekord értékével töltünk ki.

Az érdekesebb az, hogy a 𝑘 legközelebbi szomszédos imputáció, amely a hasonló rekordokat osztályozza és egymás mellé helyezi, szintén felhasználható. A hiányzó értéket ilyenkor úgy töltjük ki, hogy először megkeressük a hiányzó értékkel rendelkező rekordhoz legközelebbi 𝑘 rekordot. Ezután a 𝑘 legközelebbi szomszédok közül választunk ki (vagy számolunk ki) egy értéket. Számítás esetén olyan statisztikai módszerek használhatók, mint az átlag (a korábban tárgyaltak szerint).

– Három. Zászló.

Egyes érvek szerint a hiányzó értékek kitöltése információveszteséghez vezet, függetlenül attól, hogy milyen imputációs módszert használtunk.

Ez azért van, mert annak kimondása, hogy az adat hiányzik, önmagában is informatív, és az algoritmusnak tudnia kell róla. Ellenkező esetben csak megerősítjük a más jellemzők által már meglévő mintát.

Ez különösen fontos, ha a hiányzó adatok nem véletlenszerűen fordulnak elő. Vegyünk például egy végzett felmérést, ahol egy bizonyos fajhoz tartozó emberek többsége nem hajlandó válaszolni egy bizonyos kérdésre.

A hiányzó numerikus adatokat ki lehet tölteni mondjuk 0-val, de ezeket a nullákat figyelmen kívül kell hagyni bármilyen statisztikai érték kiszámításakor vagy az eloszlás ábrázolásakor.

Míg a kategorikus adatokat ki lehet tölteni mondjuk “hiányzik”-val:

– Vegye figyelembe …

A hiányzó értékek nem azonosak az alapértelmezett értékekkel. Például a nulla vagy hiányzónak, vagy alapértelmezettnek értelmezhető, de mindkettőnek nem.

A hiányzó értékek nem “ismeretlenek”. Egy elvégzett kutatást, ahol néhány ember nem emlékezett arra, hogy zaklatták-e őket az iskolában vagy sem, ismeretlenként és nem hiányzó értékként kell kezelni és címkézni.

Minden alkalommal, amikor értékeket hagyunk ki vagy imputálunk, információt veszítünk. A jelölés tehát segítségünkre lehet.

Outliers

Azok az értékek, amelyek szignifikánsan eltérnek az összes többi megfigyeléstől. Minden olyan adatérték, amely több mint (1,5 * IQR) távolságra van a Q1 és Q3 kvartilisektől, kiugrónak minősül.

A kiugró értékek ártatlanok, amíg bűnösnek nem bizonyulnak. Ezzel együtt nem szabad őket eltávolítani, hacsak nincs rá jó okunk.

Elképzelhető például, hogy észreveszünk néhány furcsa, gyanús értéket, amelyek előfordulása valószínűtlen, és ezért úgy döntünk, hogy eltávolítjuk őket. Bár, érdemes kivizsgálni őket, mielőtt eltávolítjuk.

Azt is érdemes megemlíteni, hogy egyes modellek, például a lineáris regresszió, nagyon érzékenyek a kiugró értékekre. Más szóval a kiugró értékek eltéríthetik a modellt attól, ahol az adatok többsége fekszik.

Az adatállományok közötti & hibák

Ezek a hibák abból adódnak, hogy egy sorban vagy az adatállományok között két vagy több olyan érték van, amelyek ellentmondanak egymásnak.

Például, ha van egy adatállományunk a városok megélhetési költségeiről. A teljes oszlopnak meg kell egyeznie a lakbér, a közlekedés és az élelmiszer összegével.

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

Hasonlóképpen, egy gyermek nem lehet házas. Egy munkavállaló fizetése nem lehet kevesebb, mint a kiszámított adók.

Ugyanez a gondolat vonatkozik a különböző adatkészleteken belüli kapcsolódó adatokra is.

Ellenőrzés

Azt követően ellenőrizni kell a helyességet, hogy újra megvizsgáljuk az adatokat, és meggyőződünk arról, hogy a szabályok és korlátozások valóban érvényesek.

A hiányzó adatok kitöltése után például előfordulhat, hogy megsértik a szabályok és korlátozások bármelyikét.

Ez némi kézi korrekciót jelenthet, ha másképp nem lehetséges.

Reportálás

A tisztításhoz hasonlóan fontos, hogy az adatok mennyire egészségesek.

Amint már említettük, a szoftvercsomagok vagy könyvtárak képesek jelentést készíteni az elvégzett módosításokról, arról, hogy mely szabályokat és hányszor sértették meg.

A jogsértések naplózása mellett a hibák okait is figyelembe kell venni. Miért történtek meg egyáltalán?”

Végszó …

Ha idáig eljutottál, örülök, hogy a végéig ki tudtál tartani. De, Az említettek közül egyik sem értékes a minőségi kultúra elfogadása nélkül.

Nem számít, hogy mennyire robusztus és erős a validálási és tisztítási folyamat, az ember továbbra is szenvedni fog, ahogy új adatok érkeznek.

Jobb, ha védekezel egy betegség ellen, ahelyett, hogy időt és energiát fordítanál annak orvoslására.

Ezek a kérdések segítenek az adatminőség értékelésében és javításában:

Hogyan és milyen körülmények között gyűjtötték az adatokat? Nem mindegy, hogy milyen környezetben gyűjtötték az adatokat. A környezet magában foglalja többek között a helyszínt, az időzítést, az időjárási körülményeket stb.

Az, hogy az alanyokat a véleményükről kérdezzük meg valamiről, miközben munkába tartanak, nem ugyanaz, mint amikor otthon vannak. Azok a vizsgálatban részt vevő páciensek, akiknek nehézséget okoz a táblagépek használata a kérdőív megválaszolásához, megzavarhatják az eredményeket.

Mit képviselnek az adatok? Mindenkit tartalmaznak? Csak a városban élőket? Vagy esetleg csak azokat, akik azért döntöttek úgy, hogy válaszolnak, mert határozott véleményük van a témáról.

Milyen módszereket használnak az adatok tisztítására és miért? Különböző módszerek különböző helyzetekben vagy különböző adattípusok esetén jobbak lehetnek.

Fektet-e időt és pénzt a folyamat fejlesztésére? Az emberekbe és a folyamatba való befektetés ugyanolyan fontos, mint a technológiába való befektetés.