はじめに
回帰分析を行う際にしばしば直面する問題のひとつが「多重共線性」です。
これは説明変数同士が強く相関している状態を指し、モデルの解釈や予測精度に大きな影響を与えます。
本記事では、多重共線性の定義から、なぜ問題になるのか、どのように検出・回避すればよいのかを、初心者にもわかりやすく解説します。
多重共線性とは?
定義
多重共線性(multicollinearity)とは、複数の説明変数が互いに強い線形関係を持つ状態のことです。
例えば「身長」と「体重」を同時にモデルに入れると、両者が強い相関を持つため多重共線性が発生する可能性があります。
単純な例
- 説明変数X1(身長)とX2(足のサイズ)がほぼ比例関係にある場合
- Y(スポーツのパフォーマンス)を予測する回帰分析に両方入れると、どちらが本当に効いているのか判別が難しくなる
多重共線性が引き起こす問題
回帰係数の不安定化
説明変数間の相関が強いと、回帰係数の推定が大きくブレるようになります。
同じデータでもサンプルを少し入れ替えるだけで係数が正負逆転することもあります。
有意性検定の歪み
- P値が大きくなり、本当は有意な変数が有意でないと判定されることがある。
- 逆に、解釈が誤解されることでビジネス上の意思決定に悪影響を及ぼす。
モデル解釈の難化
どの変数が目的変数に効いているかが不明瞭になり、ビジネスや研究での示唆が得られにくくなる。
多重共線性の検出方法
1. 相関係数行列の確認
- 変数間の相関係数(Pearson)を算出。
- 0.8以上の相関がある場合、多重共線性を疑う。
2. 分散拡大係数(VIF: Variance Inflation Factor)
- 定番の検出方法。
- VIF = 1 / (1 – R²)
- 一般に VIF > 10 で多重共線性の問題が深刻とされる。
3. 固有値分解・条件数(Condition Number)
- 設計行列の条件数が大きい場合(30以上)、多重共線性が強いと判断される。
多重共線性の原因
- 似た情報を持つ変数を同時に投入した場合
例:年齢と生まれ年 - ダミー変数の過剰投入(ダミー変数落とし忘れ)
例:カテゴリ変数のすべてのダミーを入れてしまう → 完全多重共線性 - サンプル数が少ない状態で説明変数が多すぎる場合
→ 次元の呪いによる共線性強化
多重共線性の回避・対処法
1. 高相関の変数を除去
- 相関が非常に高い変数の一方をモデルから外す。
- ビジネス的な意味の強い方を残す。
2. 主成分分析(PCA)の利用
- 相関の強い変数群を「まとめて」新しい変数に変換する。
- 次元圧縮と解釈のシンプル化に有効。
3. Ridge回帰・Lasso回帰など正則化手法
- Ridge:係数の大きさを抑制 → 共線性による不安定化を軽減
- Lasso:変数選択効果もある
4. サンプル数の拡大
- 実務上難しいが、サンプルを増やすことで推定の安定性が増す。
実務での多重共線性対応(事例ベース)
広告データ分析の例
- 説明変数:TVCM出稿量、Web広告費、認知率調査スコア
- 出稿量と認知率が強く相関 → 多重共線性が発生
- 解決策:認知率スコアを除外し、広告費と成果の関係に集中
医療データ分析の例
説明変数:BMI、体重、体脂肪率
高相関の変数をすべて入れるとモデルが不安定に
解決策:BMIだけを残す
まとめ
• 多重共線性は、説明変数間の強い相関により係数推定が不安定化する問題。
• 検出にはVIFや相関行列を用いる。
• 対処法としては「変数除去」「主成分分析」「正則化回帰」が代表的。
• 実務では「どの変数を残すか」をビジネス上の目的に沿って判断することが重要。