データ分析や機械学習において、モデル構築そのものよりも結果の質を左右するのがデータ準備・前処理です。
実務では「モデルを変えても精度が上がらない」原因の多くが、前処理や特徴量設計にあります。
データサイエンティスト検定™ リテラシーレベルでも、この前処理領域は重要な出題範囲となっています。
本記事では、以下のトピックを一貫した流れで解説します。
- 標準化とスケーリング
- 名義尺度データのダミー変数化
- 特徴量エンジニアリングの考え方
- データ量削減と可視化
- 情報可視化におけるデータインク
- 外れ値の可視化と扱い方
1. 標準化とは何か
標準化とは、各データから平均値を引き、標準偏差で割ることで、
- 平均:0
- 分散:1(標準偏差1)
となるように変換するデータ加工手法です。
この処理によって、元の単位やスケールに依存しない形でデータを扱えるようになります。
なぜ標準化が必要なのか
実データでは、次のように尺度や単位が異なる変数が混在することが一般的です。
- 身長(cm)
- 体重(kg)
- 年収(万円)
この状態で距離計算や重み付け、回帰分析、機械学習を行うと、
スケールの大きい変数が過剰に影響するという問題が生じます。
標準化を行うことで、
「どの変数も同じ土俵で比較できる」状態を作ることができます。
正規化との違い
標準化と似た概念に正規化があります。
- 正規化:最小値・最大値を使って 0〜1 などの範囲に収める
- 標準化:平均と標準偏差を使って分布を整える
正規化は値の範囲が事前に決まっている場合に有効ですが、
外れ値の影響を強く受けやすいという欠点があります。
そのため、一般的な分析や機械学習では、
正規化よりも標準化が使われるケースが多くなります。
2. 名義尺度データのダミー変数化
実際の分析データには、
- 数値データ(間隔尺度・比例尺度)
- カテゴリデータ(名義尺度・順序尺度)
が混在します。
このうち名義尺度のデータは、そのままでは回帰分析や機械学習モデルに利用できません。
ダミー変数とは
名義尺度のカテゴリ変数は、**ダミー変数(0/1変数)**に変換します。
カテゴリ数が k の場合、
ダミー変数は原則として k−1k-1k−1 個作成します。
例:店舗立地
- 駅前店
- 郊外店
- 住宅街店
この3水準の変数は、次のように2つのダミー変数で表現します。
- 駅前ダミー(1 or 0)
- 郊外ダミー(1 or 0)
残りの「住宅街店」は基準カテゴリとして暗黙的に表現されます。
多重共線性への注意
すべてのカテゴリをダミー変数化すると、
重回帰分析では多重共線性が発生します。
そのため、
- ダミー変数は k−1 個まで
- 基準カテゴリを必ず1つ設定
というルールを守る必要があります。
3. 特徴量エンジニアリングの考え方
数値データをそのまま使えばよいとは限りません。
実務では次のような問題が頻繁に発生します。
- 変数ごとのスケールが大きく異なる
- 分布が大きく歪んでいる
- 外れ値が存在する
- 変数間の関係が非線形である
これらに対処するために行うのが特徴量エンジニアリングです。
代表的な手法
- 二値化・離散化
連続値を業務的に意味のあるカテゴリへ変換 - 対数変換
スケール差や歪度が大きい場合に分布を整える - Box-Cox変換 / Yeo-Johnson変換
対数変換を一般化した手法 - スケーリング・正規化
モデル推定を安定させる - 交互作用特徴量
変数間の非線形関係を明示的に表現
重要な注意点
特徴量は闇雲に増やせばよいわけではありません。
- 業務理解に基づいているか
- 解釈可能性を損なっていないか
- 過学習を招いていないか
といった観点を常に意識することが重要です。
4. データ量削減と可視化
データの全体像を把握するために可視化は不可欠ですが、
データ量が膨大な場合、そのまま可視化しても特徴を捉えにくくなります。
そのような場合は、データ量削減を行います。
主な方法
- サンプリング
- ランダムサンプリング
- 層別サンプリング
- アンサンブル平均
アンサンブル平均とは
アンサンブル平均とは、
同一条件下で得られた複数データの平均を取る方法です。
時間平均とは異なり、
- 時間構造を保ったまま
- ノイズを抑えつつ
- データ量を削減できる
という特徴があり、時系列データの可視化で特に有効です。
5. 情報可視化とデータインク
データインク比とは、
データインク ÷ 全インク
で表される指標です。
データインクとは
削除するとグラフの意味が変わってしまう本質的な要素を指します。
- データ点
- 軸
- 必要最小限の目盛り
などが該当します。
データインク比の考え方
- 高い:無駄な装飾が少なく、情報が効率的
- 高すぎる:可読性が下がることもある
目的や閲覧者(専門家か非専門家か)に応じて、
バランスを取ることが重要です。
データ濃度にも注意
データ濃度とは、
「画面単位面積あたりの情報量」を表す指標です。
情報量が多すぎると、
理解しづらいグラフになるため注意が必要です。
6. 外れ値の可視化
外れ値は分析結果に大きな影響を与えるため、
必ず可視化によって確認する必要があります。
代表的な可視化手法
- 散布図
- ヒストグラム
- 箱ひげ図
箱ひげ図による外れ値検出
箱ひげ図では、
- 第1四分位数(25%点)
- 第3四分位数(75%点)
の差を**四分位範囲(IQR)**とし、
- Q1−1.5×IQR
- Q3+1.5×IQR
の外側にあるデータを外れ値として扱います。
外れ値は必ずしも「誤り」ではなく、
重要な示唆を持つデータである場合もあるため、
削除の判断は慎重に行う必要があります。
まとめ
データ準備・前処理は、
- モデル精度
- 解釈性
- 分析の信頼性
を大きく左右する、データ分析の土台です。
- 標準化で尺度を揃える
- 名義尺度はダミー変数化する
- 特徴量は業務理解に基づいて設計する
- 可視化前にデータ量を調整する
- 外れ値とバイアスを常に疑う
これらを体系的に理解することが、
データサイエンティスト検定™ リテラシーレベル合格だけでなく、
実務で通用する分析力につながります。


