The Ultimate Guide to Data Cleaning

Missing values

Missing valuesが避けられないという事実を考えると、それに遭遇したときどうしたらよいかという疑問が残ります。欠測を無視することは、船に穴を開けるのと同じことです。

列の値のほとんどが欠落しており、ランダムに発生する場合、典型的な決定は、列全体を削除することです。

欠損値を埋めることは、予期しないまたは偏った結果をもたらすかもしれないので、これは統計解析を行うときに特に便利です。 Impute.

他の観測値に基づいて欠損値を計算することを意味します。これを行うには非常に多くの方法があります。

– 最初のものは、平均値、中央値などの統計値を使用します。平均値は元のデータに偏りがない場合に最も有効で、中央値はより堅牢で、外れ値に影響されないので、データが偏っている場合に使用される。次に、(mean — 2 * std) & (mean + 2 * std)

-の間の乱数を発生させて欠損値を埋める。第2に線形回帰を使う。既存のデータに基づいて、2つの変数、例えば、住宅価格対サイズm²の間の最適な直線を計算することができます。

線形回帰モデルは外れ値に敏感であることを言及する価値がある。

– 3つ目。ホットデッキです。他の類似のレコードから値をコピーすること。これは、十分な利用可能なデータがある場合にのみ有効です。そして、数値データやカテゴリーデータに適用することができる。

一つは、ランダムな値で欠損値を埋めるランダムなアプローチをとることができる。このアプローチをさらに一歩進めると，まずいくつかの特性，たとえば性別に基づいて，データセットを2つのグループ（層）に分割し，次に異なる性別の欠損値を別々に，ランダムに埋めることができる。

順次ホットデッキインピュテーションでは，欠損値を含む列が補助変数（s）に従ってソートされて，同様の補助を持つレコードが順次発生するようにする．次に，各欠損値は，次に利用可能な最初のレコードの値で埋められる。

より興味深いのは，類似のレコードを分類してそれらを一緒にする𝑘近隣インピュテーションも利用することができることである。そして、欠損値を持つレコードに最も近い𝑘レコードを最初に見つけることによって、欠損値が埋められます。次に、𝑘近隣のレコードから値を選択（または計算）します。計算の場合、（前に述べたように）平均のような統計的な方法を使うことができる。

– 3. フラグ.

欠損値を埋めることは、どんなインピュテーション方法を使ったとしても、情報の損失につながるという意見があります。

それは、データが欠損しているということ自体が情報であり、アルゴリズムがそれを知っていなければならないためです。そうでなければ、他の特徴によってすでに存在するパターンを補強しているだけです。

これは、欠損データがランダムに発生しない場合に特に重要です。例えば、特定の人種からほとんどの人が特定の質問への回答を拒否しているような調査を例にとってみましょう。

欠損した数値データは、例えば 0 で埋めることができますが、これらのゼロは、任意の統計値を計算したり分布をプロットする際には無視しなければなりません。

-考慮する…

欠測値はデフォルト値と同じではありません。たとえば、ゼロは欠落またはデフォルトとして解釈されますが、両方ではありません。

欠落値は「不明」ではない。学校でいじめられたかどうか覚えていない人がいるような調査を行った場合、missingではなくunknownとして扱われ、ラベル付けされるべきです。

Outliers

それらは、他のすべてのオブザベーションと有意に異なる値である。 Q1 と Q3 の四分位値から (1.5 * IQR) 以上離れたデータ値はすべて外れ値であるとみなされます。

例えば、起こりそうもない奇妙で疑わしい値に気づき、それを削除することにすることができます。しかし、それらは削除する前に調査する価値があります。

また、線形回帰のようないくつかのモデルは、外れ値に非常に敏感であることを言及する価値があります。言い換えれば、外れ値は、ほとんどのデータがあるところからモデルを放り出すかもしれません。

In-record & cross-datasets errors

これらのエラーは、同じ行またはデータセット間で互いに矛盾する 2 つ以上の値があることに起因しています。合計の列は家賃、交通費、食費の合計と等価でなければならない。

city rent transportation food total
libson 500 20 40 560
paris 750 40 60 850

同様に、子供は結婚することができない。従業員の給与が計算された税金より低いことはできません。

同じ考え方は、異なるデータセット間の関連データにも当てはまります。

Verifying

完了したら、データを再検査してルールと制約が保持されているか確認し、正確性を検証する必要があります。

他に不可能な場合は、手動で修正する必要があるかもしれません。

レポート作成

データがどれだけ健全かをレポートすることは、クリーニングと同様に重要です。

前に述べたように、ソフトウェアパッケージやライブラリは、行った変更、どの規則に何回違反したかというレポートを作成することができます。

最後に一言…

ここまで来られたのなら、最後までよく持ちこたえました。しかし、品質文化を受け入れることなしに、述べたことのどれにも価値はありません。

検証およびクリーニングのプロセスがどれほど堅牢で強力であっても、新しいデータが入ってくるたびに苦しみ続けるでしょう。

それを改善するために時間と労力を使うのではなく、病気から身を守る方がよいのです。データが収集された環境は重要です。環境には、場所、タイミング、天候などが含まれますが、これらに限定されません。

被験者が通勤中に何かについての意見を尋ねるのは、自宅にいるときと同じではありません。タブレットでアンケートに答えるのが困難な患者は、結果を狂わせるかもしれません。

データは何を表しているのでしょうか。それはすべての人を含んでいますか？都市の人々だけですか？または、おそらく、トピックについて強い意見を持っていたので、回答することを選択した人だけです。

データをきれいにするために使用される方法とその理由は何ですか。 6264>

プロセスを改善するために時間とお金を投資していますか？人とプロセスへの投資は、テクノロジーへの投資と同じくらい重要です。