Chybějící data, jejich typy a statistické metody jejich zpracování

8. listopadu, 2019 – 6 minut čtení

Při učení se , většina datových vědců a nadšenců se snaží vypořádat se známými datovými sadami, jako je MNIST , ImageNet , … které jsou kompletní , čisté a dobře formátované . Problémy reálného světa a datové sady jsou však bohužel této akademické utopii na hony vzdálené . Jinými slovy , nejsou vůbec dokonalé , obsahují šum , obsahují mnoho chybějících údajů a někdy také nejsou dobře strukturované nebo formátované .

V tomto příspěvku budeme hovořit o jednom z těchto únavných problémů , který se často objeví , a bez dalších okolků , jak je uvedeno v názvu , se budeme zabývat problémem „chybějících údajů“ z širokého a statistického hlediska

Nejprve , co konkrétně rozumíme pod pojmem „chybějící údaje“?

Chybějící údaje znamenají, že chybí jedna nebo více hodnot proměnných ( rysů ) obecně kódovaných -999 , nan , null . . často k tomu dochází při nesprávném sběru údajů , nedostatku údajů ( Např. : hodnocení uživatelů ) nebo chybám při zadávání údajů ( chybné zadání ) , a to může vést k drastickým zjištěním a závěrům, které mohou negativně ovlivnit rozhodnutí !

Následující obrázek ilustruje markantní příklad „doporučovacích systémů“, kdy se problém „chybějících údajů“ vyskytuje často, protože část našich údajů závisí na zpětné vazbě uživatelů .

Kredity : X . Amatrian

způsobuje výzkumníkům také velké potíže při analýze a interpretaci výsledků jejich výzkumu, aby mohli učinit závěry .

Existují tři typy chybějících údajů:
1) chybějící zcela a náhodně – (MCAR).
2) chybějící náhodně – (MAR).
3) chybějící nikoli náhodně – (MNAR).

Typ I: Chybějící zcela náhodně (MCAR)
Není žádný vztah mezi tím, zda datový bod chybí, a jakoukoli hodnotou v souboru dat (chybějící nebo pozorovanou) .chybějící data jsou jen náhodnou podmnožinou dat. Chybějící údaje nemají nic společného s žádnou jinou proměnnou . Mimochodem , data jsou zřídkakdy MCAR.

Následující příklad zobrazí tento druh problému :

Kredity : Iris Eekhout

Je poměrně snadné ověřit předpoklad, že v našem příkladu chybí data zcela náhodně. Pokud můžete předvídat nějaký důvod chybějících dat (např, pomocí selského rozumu, regrese nebo jiné metody), ať už na základě úplné proměnné Věk nebo chybějící proměnné IQ skóre , pak data nejsou MCAR !

TLDR : nejsou ovlivněna ani pozorovanými, ani chybějícími daty => Zcela náhodně

Typ II: Náhodné chybění (MAR)
Chybějící data jsou zde ovlivněna pouze úplnými (pozorovanými ) proměnnými, nikoliv charakteristikami samotných chybějících dat. Jinými slovy , pro datový bod , který chybí, nesouvisí s chybějícími údaji, ale souvisí s některými ( nebo všemi ) pozorovanými údaji , následující příklad situaci znázorní a objasní :

Kredity: Iris Eekhout

Mohli jsme si snadno všimnout, že IQ skóre chybí u mladých lidí ( věk < 44 let ) , a tak chybějící údaje závisí na pozorovaných údajích , avšak neexistuje závislost s hodnotami samotného chybějícího sloupce.

TLDR : není způsobeno samotnými chybějícími údaji, ale je ovlivněno pozorovanými údaji => Náhodně

Typ III: chybějící nikoli náhodně (MNAR)
Není to ani typ I, ani typ II , a údaje budou chybět na základě samotného chybějícího sloupce , například následující příklad poukazuje na skutečnost, že chybí údaje o skóre IQ, přičemž pouze osoby mají nízké skóre .

Kredity : Iris Eekhout

jak vidíte , není možné odhalit případy MNAR bez znalosti chybějících hodnot !

TLDR : způsobeno samotnými chybějícími údaji => Not At Random

zde je neúplný seznam o zvládání a řešení problémů s chybějícími údaji :

Metoda 1: Odstranění

patří pod dvě různé techniky :

  • Listwise Deletion : Při této metodě je z analýzy vyloučen celý záznam, pokud chybí jakákoli jednotlivá hodnota , a proto máme pro všechny analýzy stejné N (počet záznamů).
  • Pairwise Deletion : během naší analýzy se počet zohledňovaných záznamů označený „N“ bude lišit podle zkoumané proměnné (sloupce) , a například bychom mohli vypočítat průměr pro 2 prvky (úplné VS chybějící) a při dělení počtem vzorků , nakonec dělíme různými N , jeden je celkový počet řádků a druhý je celkový počet na úplných hodnotách u chybějícího prvku .

Metoda 2: Metody jednoduché imputace

  • Imputace jedné hodnoty : nahrazení chybějící hodnoty jednou hodnotou s využitím jedné strategie, např: Průměr , Medián , Nejčastější , Průměrná osoba , … příslušného znaku .
  • Podobnost : pokus o nalezení nejbližšího ( top-N bližšího ) řádku (řádků) k řádku obsahujícímu naši chybějící hodnotu a stanovení strategie mezi nimi pro přiřazení hodnoty naší chybějící hodnotě.
  • Regresní imputace : Při jednoduché regresní imputaci se imputovaná hodnota předpovídá z regresní rovnice , předpokládáme, že chybějící hodnoty jsou v regresní přímce s nenulovým sklonem s jedním z úplných rysů ( prediktorů )

Metoda 3: Metody vícenásobné imputace

  • Algoritmus očekávání-maximalizace : algoritmus, který by mohl být použit jak pro imputaci chybějících dat, tak pro úlohu shlukování strojového učení (s ohledem na cíl jako chybějící rys) , je založen na dvou krocích :

– První : Očekávání chybějící hodnoty
– Druhý : Maximalizace pravděpodobnosti

Vřele doporučuji Andrew NG stanford notes, abyste mu dobře porozuměli , není to těžký algoritmus, nebojte se jeho vzorců ! http://cs229.stanford.edu/notes/cs229-notes8.pdf

  • Metody MI : Je to atraktivní metoda pro zpracování chybějících údajů ve vícerozměrné analýze. Myšlenku vícenásobné imputace chybějících údajů poprvé navrhl Rubin , spočívá v zprůměrování výsledků ve více imputovaných souborech dat, aby se to zohlednilo. Všechny metody vícenásobné imputace se řídí třemi kroky :
  1. Imputace – Podobně jako u jednoduché imputace se chybějící hodnoty imputují. Imputované hodnoty jsou však z rozdělení vybírány mkrát, nikoli pouze jednou. Na konci tohoto kroku by mělo být m dokončených souborů dat.
  2. Analýza – Každý z m souborů dat je analyzován. Na konci tohoto kroku by mělo být m analýz.
  3. Sdružování – M výsledků se sloučí do jednoho výsledku výpočtem průměru, rozptylu a intervalu spolehlivosti sledované proměnné .

děkuji za váš čas a pozornost , učte se dál !

pokud mě chcete kontaktovat na Linkedin, budu vám velmi vděčný

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.