Puuttuvat tiedot, niiden tyypit ja tilastolliset menetelmät niiden käsittelemiseksi

Nov 8, 2019 – 6 min read

Oppiessaan , useimmat datatieteilijät ja harrastajat yrittävät käsitellä kuuluisia tietokokonaisuuksia, kuten MNIST , ImageNet , … jotka ovat täydellisiä , puhtaita ja hyvin muotoiltuja . Todellisen maailman ongelmat ja tietokokonaisuudet ovat kuitenkin valitettavasti kaukana tästä akateemisesta utopiasta. Toisin sanoen ne eivät ole lainkaan täydellisiä, ne sisältävät kohinaa, niissä on paljon puuttuvia tietoja ja joskus ne eivät myöskään ole hyvin jäsenneltyjä tai muotoiltuja.

Tässä postauksessa , aiomme puhua eräästä näistä ikävistä ongelmista , jotka putoavat usein esiin , ja ilman muuta , kuten otsikossa mainitaan , käsittelemme ”puuttuvan datan” ongelmaa laajasta ja tilastollisesta näkökulmasta

Aluksi , mitä tarkoitamme konkreettisesti ”puuttuvalla datalla” ?

Puuttuva data tarkoittaa , että yhden tai useamman muuttujan ( piirteiden ) arvot puuttuvat yleensä koodattuna -999 , nan , null . . se tapahtuu usein, kun tietoja kerätään väärällä tavalla , tietojen puuttuminen ( Esim : käyttäjien luokitus ) tai virheet tietojen syöttämisessä ( kirjoitusvirheet ) , ja tämä voi johtaa rajuihin havaintoihin ja johtopäätöksiin, jotka voivat vaikuttaa kielteisesti päätöksiin ! X . Amatrian

Se aiheuttaa myös paljon vaivaa tutkijoille, kun he analysoivat ja tulkitsevat tutkimustuloksiaan tehdäkseen johtopäätöksiä .

Puuttuvia aineistoja on kolmea eri tyyppiä:
1) Missing Completely and Random – (MCAR).
2) Missing at Random – (MAR).
3) Missing Not at Random – (MNAR).

Tyyppi I: Missing Completely at Random (MCAR)
Ei ole mitään suhdetta sen välillä, puuttuuko jokin datapiste ja minkä tahansa datajoukon arvojen välillä (puuttuvat tai havaitut) .Puuttuvat tiedot ovat vain satunnainen osajoukko datasta . Puuttuvuudella ei ole mitään tekemistä minkään muun muuttujan kanssa . Muuten , data on harvoin MCAR.

Seuraava esimerkki kuvaa tällaista ongelmaa :

Credits : Iris Eekhout

On suhteellisen helppo tarkistaa oletus, että esimerkissämme tiedot puuttuvat täysin satunnaisesti. Jos voit ennustaa jonkin syyn puuttuville tiedoille (esim, maalaisjärjellä, regressiolla tai jollain muulla menetelmällä) joko täydellisen muuttujan Ikä tai puuttuvan muuttujan ÄO-pisteet perusteella , niin aineisto ei ole MCAR !

TLDR : ei vaikuta kumpikaan, ei havaittu eikä puuttuva aineisto => Täysin sattumanvaraisesti

Tyyppi II: Missing at Random (MAR)
Puuttuvaan aineistoon vaikuttavat tässä vain täydelliset (havainnoidut ) muuttujat eivätkä itse puuttuvan aineiston ominaisuudet. Toisin sanoen , datapisteen puuttuminen ei liity puuttuvaan dataan, mutta se liittyy joihinkin ( tai kaikkiin ) havaittuihin tietoihin , seuraava esimerkki kuvaa tilannetta ja selventää sitä :

Krediitit : Iris Eekhout

Voisimme helposti huomata, että IQ-pisteet puuttuvat nuorilta ( ikä < 44 yo ) , ja näin ollen puuttuvat tiedot riippuvat havaituista tiedoista , mutta itse puuttuvan sarakkeen arvojen kanssa ei ole riippuvuutta.

TLDR : ei johdu puuttuvasta tiedosta itsestään, mutta vaikuttaa havaittuun tietoon => At Random

Tyyppi III: Missing Not at Random (MNAR)
Ei ole tyyppi I eikä tyyppi II , ja tiedot puuttuvat puuttuvan sarakkeen itsensä perusteella , esimerkiksi seuraavassa esimerkissä tuodaan esiin, että tiedot puuttuvat ÄO-pisteiden osalta, joissa on vain henkilöitä, joilla on matala pistemäärä .

Pisteet : Iris Eekhout

kuten näette , on mahdotonta havaita MNAR tapauksia tuntematta puuttuvia arvoja !

TLDR : johtuu itse puuttuvasta datasta => Not At Random

täällä on ei-tyhjentävä lista puuttuvan datan ongelmista selviytymisestä ja niiden käsittelystä :

Menetelmä 1: Poistaminen

se kuuluu kahden eri tekniikan alle :

  • Listoittainen poisto : Tässä menetelmässä kokonainen tietue jätetään analyysin ulkopuolelle, jos jokin yksittäinen arvo puuttuu , ja näin ollen meillä on sama N (tietueiden määrä) kaikissa analyyseissä .
  • Pareittainen poisto : Analyysin aikana huomioon otettavien tietueiden määrä, jota merkitään ”N”, vaihtelee tutkittavan muuttujan (sarakkeen) mukaan, ja esimerkiksi voisimme laskea keskiarvon kahdelle piirteelle (Täydellinen VS puuttuva), ja kun jaamme näytteiden lukumäärällä, päädymme jakamaan eri N:llä, joista toinen on rivien kokonaislukumäärä ja toinen puuttuvan piirteen täydellisten arvojen kokonaislukumäärä.

Menetelmä 2: Yksittäiset imputointimenetelmät

  • Yksittäisen arvon imputointi : puuttuvan arvon korvaaminen yhdellä arvolla käyttäen yhtä strategiaa, kuten :
  • Samankaltaisuus : yritetään löytää puuttuvan arvomme sisältävää riviä lähimpänä ( top-N lähempänä ) oleva(t) rivi(t) ja määritetään niiden joukosta strategia, jolla puuttuvalle arvollemme annetaan arvo.
  • Regressioimputointi : Yksittäisessä regressioimputoinnissa imputoitu arvo ennustetaan regressioyhtälöstä , oletamme, että puuttuvat arvot ovat regressiosuoralla, jonka kaltevuus on nollasta poikkeava yhden täydellisen piirteen ( ennustajien )kanssa

Menetelmä 3: Moninkertaiset imputointimenetelmät

  • Expectation-Maximization Algorithm : algoritmi jota voidaan käyttää sekä puuttuvan datan imputointiin että koneoppimisen klusterointitehtävään (huomioiden kohde puuttuvana piirteenä) , se perustuu kahteen vaiheeseen :

– Ensimmäinen : Puuttuvan arvon odotus
– Toinen : Todennäköisyyden maksimointi

Suosittelen lämpimästi Andrew NG stanfordin muistiinpanoja ymmärtääkseen sen hyvin , se ei ole vaikea algoritmi , älkää pelätkö sen kaavoja ! http://cs229.stanford.edu/notes/cs229-notes8.pdf

  • MI-menetelmät : Se on houkutteleva menetelmä puuttuvien tietojen käsittelyyn monimuuttuja-analyysissä. Ajatus moninkertaisesta imputoinnista puuttuvien tietojen osalta ehdotti ensimmäisenä Rubin , se koostuu tulosten keskiarvoistamisesta useiden imputoitujen tietokokonaisuuksien välillä tämän huomioon ottamiseksi. Kaikki moninkertaisen imputoinnin menetelmät noudattavat kolmea vaihetta :
  1. Imputointi – Samoin kuin yksittäisessä imputoinnissa, puuttuvat arvot imputoidaan. Imputoidut arvot arvotaan kuitenkin m kertaa jakaumasta eikä vain kerran. Tämän vaiheen lopussa pitäisi olla m valmista tietokokonaisuutta.
  2. Analyysi – Kukin m tietokokonaisuudesta analysoidaan. Tämän vaiheen lopussa pitäisi olla m analyysiä.
  3. Pooling – m tulosta yhdistetään yhdeksi tulokseksi laskemalla tarkasteltavana olevan muuttujan keskiarvo, varianssi ja luottamusväli.

Kiitos ajastasi ja huomiostasi , Keep Learning !

jos haluat tavoittaa minut Linkedinissä olisin hyvin kiitollinen

Vastaa

Sähköpostiosoitettasi ei julkaista.