Manglende data, deres typer og statistiske metoder til behandling af dem
8. nov, 2019 – 6 min read
Ved læring forsøger de fleste datavidenskabsfolk og entusiaster at håndtere berømte datasæt som MNIST , ImageNet , … som er komplette , rene og velformaterede . Imidlertid er virkelige problemer og datasæt i den virkelige verden desværre langt fra denne akademiske utopi . Med andre ord er de slet ikke perfekte, de indeholder støj, de indeholder en masse manglende data, og nogle gange er de heller ikke velstrukturerede eller formaterede.
I dette indlæg vil vi tale om et af disse kedelige problemer, som ofte dukker op , og uden videre vil vi som nævnt i titlen tage fat på problemet med “manglende data” fra et bredt og statistisk perspektiv
Først af alt , hvad mener vi konkret med “manglende data”?
Manglende data betyder, at en eller flere variabler ( funktioner ) værdier mangler generelt kodet med -999 , nan , null . . det sker ofte ved forkert indsamling af data, manglende data ( f.eks. brugernes vurdering ) eller fejl ved indtastning af data ( fejlskrivning ), og det kan føre til drastiske resultater og konklusioner, som kan påvirke beslutningerne negativt!
Den følgende figur illustrerer det slående eksempel på “anbefalingssystemer”, hvor problemet med “manglende data” forekommer hyppigt, fordi en del af vores data afhænger af brugernes feedback .
Kreditter : X . Amatrian
det giver også forskerne mange problemer, mens de analyserer og fortolker resultaterne af deres forskning for at drage konklusioner .
Der er tre typer manglende data: 1) Manglende fuldstændigt og tilfældigt – (MCAR). 2) Manglende tilfældigt – (MAR). 3) Manglende ikke tilfældigt – (MNAR).
Type I: Der er ingen sammenhæng mellem, om et datapunkt mangler, og eventuelle værdier i datasættet (manglende eller observerede) .De manglende data er blot en tilfældig delmængde af dataene . Det manglende har intet at gøre med nogen anden variabel . I øvrigt er data sjældent MCAR.
det følgende eksempel vil skildre denne form for problem :