データクレンジング

分析にはデータが必要です。

■ ■ 発売中 ■ ■
決算書のつくり方
kindle版 

なぜ社長は決算書に興味がないのか?
Kindle版

データクレンジング

「クレンジング」と聞くと、お化粧などを落とすことかな、と。
洗顔とクレンジングの違いも、私はよく分かりません。

最近「データクレンジング」という言葉を耳にすることがあります。

データクレンジングとは、データの誤記や未入力、重複や飛びなどの不備を修正し、データの正確性を高めることをいいます。

データを事前に整えることのようです。

データと言っても、実際は玉石混交。
本当にそれがデータとして使えるのか?
チェックの必要があるケースも、少なからずあります。

データのようで、データでない

「データならここに揃えてあります」
「ここからCSVデータが取り込めます」

そうやって手に入れたデータを、取り込んで加工しようとします。
ところが、データの形式や列の並び順。
思わぬところにトラップがあったりします。

例えばこんなデータ。

12月の日付がきれいに並んでいます。
ところがこのデータ、すぐに使えなかったりします。

なぜなら、
・入力した本人は、気づかなかった
・Excelがおせっかい(?)した
・会社で日付入力の特性が共有されていない
などの理由で、使いにくいデータになっているのです。

日付を西暦表示に直すと、

前半は昨年に入力されたもの。後半は今年になってから入力されたもの。
だったわけです。

同じ月のデータだと誤認して処理すると、エラーになったり、処理後のものが役に立たなかったりすることになります。

過去にこんな記事を書いてます

少し前ですが、私がやられてしまった例を書いています。
Excelで出くわしたものです。

こちらの記事
・隠れ○○○を一掃!(Excel 置換)

2018年の8月に書いた記事ですが、いまだにこの銀行さんは同じデータを提供し続けています・・・

ほかにも、こちらの記事のような、
・全角と半角
全角と半角の混在も、意外にやられます。

「データクレンジング」というほど大げさではないにせよ、前処理といいますか、事前の確認準備はちゃんとやっておきましょう。

ーーー