統計学を学ぶ中で、「交絡因子(confounding factor)」という言葉を耳にしたことがある方も多いでしょう。これは特に因果関係の解釈において非常に重要な概念であり、統計検定2級の範囲にも含まれています。
この記事では、交絡因子の基本から、なぜ注意が必要なのか、対処法まで詳しく解説します。
◆ 交絡因子とは?
交絡因子とは、2つの変数(たとえばAとB)の間に見かけの関連を生じさせる、第三の変数(C)のことです。この第三の変数Cが、AとBの両方に影響を与えている場合、AとBの間に本当は因果関係がないのに、あるように見えるという問題が発生します。
✅ 定義(統計検定2級レベル)
交絡因子とは、説明変数と目的変数の両方に影響を与える第三の因子であり、因果関係を正しく把握する上での妨げとなる変数である。
◆ 具体例:喫煙と心臓病の関係
仮説:
喫煙者は非喫煙者より心臓病になりやすい。
この仮説を検証しようとしたとき、もし喫煙者に多い「年齢が高い」という要素が心臓病のリスクと関連していた場合、年齢が交絡因子になる可能性があります。
被験者グループ | 喫煙 | 心臓病 | 年齢 |
---|---|---|---|
Aさん | あり | あり | 75歳 |
Bさん | なし | なし | 30歳 |
このように、年齢が喫煙と心臓病の両方に影響していれば、「喫煙と心臓病の関係」は年齢によって交絡している可能性があるのです。
◆ 交絡が起きると何が問題?
交絡因子を考慮しないでデータを分析すると、誤った因果推論につながります。たとえば「喫煙が心臓病の原因」と思っていたが、実は「年齢」が真の原因だった、という誤解が生じることがあります。
そのため、交絡因子の存在を検討し、必要に応じて統計的な手法で制御する必要があります。
◆ 交絡因子の制御方法(統計検定2級レベル)
① 層別化(Stratification)
交絡因子となりうる変数(たとえば年齢)でグループを分け、各層で分析を行う方法。
例:年齢層ごとに喫煙と心臓病の関係を見る
② 回帰分析(多変量解析)
複数の変数を同時に説明変数に含めることで、交絡因子の影響を調整する方法です。
例:重回帰分析で「喫煙」「年齢」の両方を説明変数としてモデルに入れる。
③ 無作為化(Randomization)
実験計画の段階で、対象者を無作為に割り当てて交絡因子が偏らないようにする方法です。
これは臨床試験などで使われる重要な手法です。
◆ 交絡と関連する統計用語
用語 | 説明 |
---|---|
因果関係 | 原因と結果の関係。交絡因子は因果関係の誤認につながる。 |
相関関係 | 変数間の関係性。因果がなくても相関はある場合がある(交絡の例)。 |
観察研究 | 無作為化せずに観察する研究。交絡因子の影響を受けやすい。 |
実験研究 | 無作為化できるため、交絡因子を制御しやすい。 |
◆ 統計検定2級での出題例(想定)
問:以下の記述のうち、交絡因子の説明として最も適切なものを選べ。
A. 目的変数にのみ影響を与える変数
B. 説明変数と目的変数の両方に影響を与える変数
C. 説明変数にのみ影響を与える変数
D. 関連性のない変数
正解:B
◆ まとめ
- 交絡因子は、因果関係を見誤らせる原因となる第三の変数。
- 特に観察研究では交絡の影響を強く受けるため、注意が必要。
- 統計手法(層別化、回帰分析)や無作為化で制御可能。
- 統計検定2級では、「交絡因子の定義」や「制御法」が問われる。