欠損データ、その種類と統計的対処法

11/8, 2019 – 6 min read

While learning , most of data scientists and enthusiasts try to deal with famous datasets such as MNIST , ImageNet , …などの有名なデータセット。 これらは、完全で、きれいで、よくフォーマットされています。 しかし、実世界の問題やデータセットは、残念ながらこのような学術的なユートピアからは程遠い。 言い換えれば、それらは完全ではなく、ノイズを含み、多くの欠損データを含み、時には構造化や書式化もうまくいっていないのです。

この投稿では、頻繁に現れるこれらの面倒な問題の1つについて話そうと思います。 これは、誤った方法でデータを収集した場合、データの不足(例:ユーザーの評価)、またはデータを入力する際のエラー(ミスタイプ)で発生することが多く、その結果、抜本的な発見や結論につながり、意思決定に悪影響を与える可能性があります。

次の図は、データの一部がユーザーのフィードバックに依存するため、「データの欠落」問題が頻繁に発生する「レコメンダーシステム」の顕著な例です。

Credits : X . Amatrian

それはまた、結論を出すために彼らの研究の結果を分析し、解釈する際に研究者のための多くの闘争を引き起こす。

欠損データの3種類があります:
1)完全かつランダムに欠落 – (MCAD)
2)ランダムでの欠落 – (MAR)
3)ランダムではない欠落 – (MNAR)

タイプI。 完全無作為欠測(MCAR)
あるデータ点が欠測であるかどうかと、データセット内のどの値(欠測または観測)とも関係がない。 欠測データはデータのランダムな部分集合に過ぎないのだ。 欠損は他のどの変数とも関係ありません。

次の例はこのような問題を表しています:

Credits : Iris Eekhout

この例では、データが完全にランダムに欠落しているという仮定を確認することは比較的簡単です。 もし、データの欠落の理由を予測できれば(例えば。 (常識、回帰、その他の方法を用いて)完全変数Ageや欠損変数IQ scoreに基づいても、そのデータはMCARではありません !

TLDR : not affected by neither the observed or the missing data => Completely At Random

Type II: Missing at Random (MAR)
ここで欠損データは完全(観測)変数のみによって影響を受け、欠損データ自体の特徴によって影響を受けるわけではありません。 言い換えれば、あるデータポイントが欠落していることは、欠落データには関係なく、観測データの一部(またはすべて)に関係するということです。 Iris Eekhout

若い世代(年齢< 44歳)ではIQスコアが欠損しており、欠損データは観測データに依存するが、欠損列の値自体には依存しないことに容易に気付くことができた。

TLDR : 欠損データそのものが原因ではなく、観測データの影響を受ける => At Random

Type III: Missing Not at Random (MNAR)
Type I でも Type II でもなく、データは欠損列そのものに基づいて欠損する、例えば次の例では、IQスコアが低い人だけがデータを欠損しているという事実が指摘されています …

Credits : Iris Eekhout

見ての通り、欠損値を知らずにMNARケースを検出することは不可能です!

TLDR : 欠損データそのものが原因 => Not At Random

欠損データ問題への対処について、網羅的ではないリストです:

Method 1: Deletion

2つのテクニックに分類されます :

  • リストワイズ削除:この方法では、1つの値が欠落している場合、レコード全体を分析から除外し、したがって、すべての分析で同じN(レコードの数)を持っています。
  • Pairwise Deletion : 分析中に考慮されるレコードの数 “N” は調査された変数(列)によって異なり、例えば、2つの特徴(完全対欠損)の平均を計算することができ、サンプル数で割ると、我々は異なるN、1つは行の総数、もう一つは欠損特徴上の完全値の総数で割ってしまう .

方法2:シングルインピュテーション法

  • Single value imputation:欠損値を単一値で置き換える方法。
  • 類似性:欠損値を含む行に最も近い(上位N行)行を探し、その中で欠損値に値を割り当てる戦略を決定する。
  • 回帰推定: 単回帰推定では、推定値は回帰式から予測され、我々は欠損値が完全特徴(予測因子)の1つと非ゼロの傾きを持つ回帰直線上にあると仮定します

方法3:多重推定の方法

  • 期待値最大化アルゴリズム: このアルゴリズムは、欠損データのインピュテーションと機械学習のクラスタリングタスク(ターゲットを欠損特徴として考慮)の両方に使用でき、2つのステップに基づいています:

– 第1:欠損値の期待値
– 第2:尤度の最大化

Andrew NG stanford notesで非常によく理解することをお勧めしますが、これは難しいアルゴリズムではないので、公式を恐れる必要はないですよ!(笑) http://cs229.stanford.edu/notes/cs229-notes8.pdf

  • MI Methods : 多変量解析における欠損データの扱い方として魅力的な手法です。 欠損データに対するmultiple imputationの考え方は、Rubinによって最初に提案され、これを考慮するために複数のインプットされたデータセットにわたって結果を平均化することから構成されます。 すべてのmultiple imputationの方法は、3つのステップを踏む。 しかし,インピュテーションされた値は,1回だけでなく,分布からm回引かれる.
  • 分析 – m個のデータセットがそれぞれ分析される。 このステップの最後に、m個の分析があるはずです。
  • プーリング – m個の結果は、平均、分散、および問題の変数の信頼区間を計算することによって1つの結果に統合されます。
  • thanks for you time and attention , Keep Learning !

    if you want to reach me out on Linkedin I would be very grateful

コメントを残す

メールアドレスが公開されることはありません。