データサイエンティスト検定™ リテラシーレベル｜回帰分析の基礎と指標の正しい理解

回帰分析は、データサイエンスにおいて「関係性を数式で表現し、予測や要因分析を行う」ための基本的な手法です。
売上と広告費、気温とアイスの販売数、学習時間と試験得点など、1つまたは複数の要因が結果にどのような影響を与えているかを定量的に捉えるために用いられます。

本記事では、データサイエンティスト検定で頻出となる
単回帰分析・重回帰分析・関連する指標の解釈を体系的に整理します。

単回帰分析の基礎
重回帰分析の基礎
多重共線性への注意
まとめ

単回帰分析の基礎

単回帰分析とは

単回帰分析とは、
1つの説明変数から1つの目的変数を予測する回帰分析です。

モデルは次の一次式で表されます。 $y = ax + b$ y=ax+b

$y$ y：目的変数（予測したい値）
$x$ x：説明変数
$a$ a：回帰係数（傾き）
$b$ b：切片

回帰係数の意味

回帰係数 aaa
説明変数 $x$ x が1単位増加したときに、
目的変数 $y$ y が平均的にどれだけ変化するかを表します。
切片 bbb
説明変数が0のときの目的変数の理論値を表します。
実務上は必ずしも意味を持つとは限りません。

最小二乗法とは

回帰係数 $a, b$ a,b は 最小二乗法 によって推定されます。

最小二乗法とは、

実測値と予測値の差（誤差）の二乗和が
最も小さくなるように回帰直線を決める方法

です。

二乗を用いる理由は、

誤差の正負を打ち消さないため
大きな誤差をより強く評価するため

です。

単回帰モデルの評価指標

回帰分析では、
回帰係数の大きさだけを見て判断するのは不十分です。

以下の指標を合わせて確認します。

標準誤差

標準誤差は、
回帰係数の推定値がどれくらい不安定かを表します。

標準誤差が小さい → 推定が安定している
標準誤差が大きい → 推定のばらつきが大きい

回帰係数の「信頼性」を判断する重要な指標です。

決定係数（ $R^2$ R2）

決定係数は、
モデルが目的変数のばらつきをどれだけ説明できているかを表します。

値は 0〜1 の範囲
1に近いほど当てはまりが良い

例：

$R^2 = 0.8$ R2=0.8
→ 目的変数の分散の80%をモデルで説明できている

重回帰分析の基礎

重回帰分析とは

重回帰分析は、
複数の説明変数を用いて1つの目的変数を予測する手法です。

モデルは次のように表されます。 $y = a_1x_1 + a_2x_2 + \cdots + b$ y=a1x1+a2x2+⋯+b

$x_1, x_2, \dots$ x1,x2,…：説明変数
$a_1, a_2, \dots$ a1,a2,…：回帰係数

偏回帰係数の意味

偏回帰係数とは、

他の説明変数を固定したときに、
ある説明変数が目的変数に与える影響

を表します。

単回帰分析との大きな違いは、
「他の要因を考慮したうえでの影響」を評価できる点です。

標準偏回帰係数

説明変数ごとに単位やスケールが異なる場合、
偏回帰係数をそのまま比較することはできません。

そこで用いられるのが 標準偏回帰係数 です。

すべての変数を標準化したうえで回帰
影響度を相対比較できる

「どの説明変数の影響が最も大きいか」を見る際に有効です。

重相関係数と決定係数

重相関係数
実測値と予測値の相関の強さを表す
決定係数 R2R^2R2
モデル全体の当てはまりの良さを表す

重回帰分析でも、
$R^2$ R2 はモデル評価の基本指標となります。

自由度調整済み決定係数

説明変数を増やすと、
決定係数はほぼ必ず大きくなるという性質があります。

そのため、モデル間比較では
自由度調整済み決定係数を用います。

これは、

説明変数の数
サンプルサイズ

を考慮して補正した指標です。

多重共線性への注意

多重共線性とは

説明変数同士に強い相関がある場合、
多重共線性が発生します。

この状態では、

回帰係数が不安定になる
符号が直感に反する
解釈が困難になる

といった問題が起こります。

多重共線性の影響

予測精度は高いのに係数の意味が解釈できない
変数を1つ削除しただけで結果が大きく変わる

といった状況は、多重共線性を疑う必要があります。

対策の考え方

相関の高い変数を同時に使わない
変数を統合・削減する
主成分分析などを用いる

検定では「多重共線性が問題になる理由」を
概念的に説明できることが重要です。

まとめ

回帰分析では、
「式を覚えること」よりも 指標の意味を理解すること が重要です。

単回帰分析は1対1の関係を見る
重回帰分析は他の要因を考慮した影響を見る
決定係数は当てはまりの指標
変数が多い場合は自由度調整済み決定係数を見る
多重共線性は解釈を困難にする

これらを正しく理解していれば、
データサイエンティスト検定だけでなく、
実務での分析結果の説明力も大きく向上します。