分析にはデータが必要です。
データクレンジング
「クレンジング」と聞くと、お化粧などを落とすことかな、と。
洗顔とクレンジングの違いも、私はよく分かりません。
最近「データクレンジング」という言葉を耳にすることがあります。
データクレンジングとは、データの誤記や未入力、重複や飛びなどの不備を修正し、データの正確性を高めることをいいます。
データを事前に整えることのようです。
データと言っても、実際は玉石混交。
本当にそれがデータとして使えるのか?
チェックの必要があるケースも、少なからずあります。
データのようで、データでない
「データならここに揃えてあります」
「ここからCSVデータが取り込めます」
そうやって手に入れたデータを、取り込んで加工しようとします。
ところが、データの形式や列の並び順。
思わぬところにトラップがあったりします。
例えばこんなデータ。
12月の日付がきれいに並んでいます。
ところがこのデータ、すぐに使えなかったりします。
なぜなら、
・入力した本人は、気づかなかった
・Excelがおせっかい(?)した
・会社で日付入力の特性が共有されていない
などの理由で、使いにくいデータになっているのです。
日付を西暦表示に直すと、
前半は昨年に入力されたもの。後半は今年になってから入力されたもの。
だったわけです。
同じ月のデータだと誤認して処理すると、エラーになったり、処理後のものが役に立たなかったりすることになります。
過去にこんな記事を書いてます
少し前ですが、私がやられてしまった例を書いています。
Excelで出くわしたものです。
こちらの記事
・隠れ○○○を一掃!(Excel 置換)
2018年の8月に書いた記事ですが、いまだにこの銀行さんは同じデータを提供し続けています・・・
ほかにも、こちらの記事のような、
・全角と半角
全角と半角の混在も、意外にやられます。
「データクレンジング」というほど大げさではないにせよ、前処理といいますか、事前の確認準備はちゃんとやっておきましょう。
ーーー