データサイエンティスト検定™ リテラシーレベル|回帰モデルと分類モデルの違いと評価指標

回帰モデルと分類モデルの違いと評価指標の正しい理解

データサイエンスにおいて重要なのは、
**「何を予測したいのか」**に応じて、適切なモデルと評価指標を選ぶことです。

本記事では、データサイエンティスト検定で頻出となる以下の内容を一貫した流れで解説します。

  • 線形回帰分析とロジスティック回帰分析の違い
  • 2値分類モデルの評価指標(混同行列・ROC・AUC)
  • 回帰モデルの評価指標(RMSE・MAE・MAPE・決定係数)

線形回帰分析が予測するもの

線形回帰分析とは

線形回帰分析は、説明変数から目的変数を「連続値」として予測する手法です。
基本的なモデルは次の形で表されます。y=ax+by = ax + by=ax+b

  • xxx:説明変数(例:気温)
  • yyy:目的変数(例:売上)
  • a,ba, ba,b:回帰係数

線形回帰は、
売上・価格・数量・時間・スコアなど、連続的な数値を扱う場面で用いられます。


線形回帰を2値予測に使うと何が問題か

目的変数が「購入した/しなかった」「合格/不合格」のような 0/1の2値 の場合、
線形回帰をそのまま使うと問題が生じます。

  • 予測値が 0 未満や 1 を超える
  • 確率として解釈できない

このようなケースでは、
「確率」を予測するモデルが必要になります。


ロジスティック回帰分析の考え方

ロジスティック回帰分析とは

ロジスティック回帰分析は、
目的変数が 0 または 1 をとる 2値分類問題 に対応した回帰モデルです。

特徴は、
「1が起こる確率」を直接モデル化する点にあります。

https://media.licdn.com/dms/image/v2/D4D12AQGIXdSG7IJCNw/article-cover_image-shrink_600_2000/article-cover_image-shrink_600_2000/0/1694183259537?e=2147483647&t=lJ_qEzot0iGYhNpez9XGRNHjS-CDKHn3Wj-6iCQxRO0&v=beta
https://images.shiksha.com/mediadata/images/articles/1701076328phpWgOVJM.jpeg

シグモイド関数

ロジスティック回帰では、シグモイド関数を用いて確率を表現します。S(y)=11+eyS(y)=\frac{1}{1+e^{-y}}S(y)=1+e−y1​

この関数の特徴は、

  • 出力が必ず 0〜1 の範囲に収まる
  • 確率として解釈できる

という点です。


回帰構造との組み合わせ

まず、線形回帰と同様に次の式を考えます。c=ax+bc = ax + bc=ax+b

これをシグモイド関数に入力すると、p=Pr(z=1)=11+ecp = Pr(z=1) = \frac{1}{1+e^{-c}}p=Pr(z=1)=1+e−c1​

となり、「事象が起こる確率」を表せます。


オッズとロジット変換

確率 ppp に対して、p1p\frac{p}{1-p}1−pp​

オッズ と呼びます。
さらに、このオッズの対数をとると、log(p1p)=ax+b\log\left(\frac{p}{1-p}\right) = ax + blog(1−pp​)=ax+b

となります。

これは、

オッズの対数(ロジット)が、説明変数の線形関数になる

ことを意味しています。


オッズ比

オッズ比は、
ある条件下と別の条件下での「起こりやすさ」を比較する指標です。

  • 1より大きい → 起こりやすい
  • 1より小さい → 起こりにくい

医療・マーケティング・リスク分析などで頻繁に用いられます。


2値分類モデルの評価方法

混同行列(正誤分布表)

2値分類問題では、
予測結果を次の4つに分類します。

実測値\予測値正例負例
正例TP(真陽性)FN(偽陰性)
負例FP(偽陽性)TN(真陰性)

この表を 混同行列 と呼びます。


Accuracy(正解率)

Accuracy=TP+TNTP+FP+FN+TNAccuracy=\frac{TP+TN}{TP+FP+FN+TN}Accuracy=TP+FP+FN+TNTP+TN​

全体としてどれくらい正しく分類できたかを示します。
ただし、不均衡データには弱いという欠点があります。


Precision(適合率)と Recall(再現率)

  • Precision
    正例と予測した中で、本当に正例だった割合
  • Recall
    実際に正例だったものを、どれだけ取りこぼさず検出できたか

Precision と Recall は トレードオフの関係にあります。


特異度(Specificity)

特異度は、Specificity=TNTN+FPSpecificity=\frac{TN}{TN+FP}Specificity=TN+FPTN​

で計算され、
負例を正しく負例と判断できた割合を表します。


F値

F値は Precision と Recall の 調和平均です。F=2×Precision×RecallPrecision+RecallF = \frac{2 \times Precision \times Recall}{Precision + Recall}F=Precision+Recall2×Precision×Recall​

バランスを重視した評価指標として用いられます。


ROC曲線とAUC

ROC曲線とは

ROC曲線は、
分類の閾値を変化させたときの

  • 横軸:偽陽性率(FPR)
  • 縦軸:真陽性率(TPR)

をプロットした曲線です。

https://www.researchgate.net/publication/276079439/figure/fig2/AS%3A614187332034565%401523445079168/An-example-of-ROC-curves-with-good-AUC-09-and-satisfactory-AUC-065-parameters.png
https://cdn.prod.website-files.com/660ef16a9e0687d9cc27474a/662c42679571ef35419c995f_647606906b8c519b822b9090_classification_metrics_011-min.png

AUCとは

**AUC(Area Under the Curve)**は、
ROC曲線の下側の面積を表します。

  • 1.0 に近い → 非常に良いモデル
  • 0.5 → ランダム予測と同等

AUCは 閾値に依存しない評価指標である点が重要です。


回帰モデルの評価指標

RMSE(平均平方二乗誤差)

RMSE=1Ni=1N(yiy^i)2RMSE=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(y_i-\hat{y}_i)^2}RMSE=N1​i=1∑N​(yi​−y^​i​)2​

  • 大きな誤差を強く罰する
  • 外れ値の影響を受けやすい

MAE(平均絶対誤差)

MAE=1Ni=1Nyiy^iMAE=\frac{1}{N}\sum_{i=1}^{N}|y_i-\hat{y}_i|MAE=N1​i=1∑N​∣yi​−y^​i​∣

  • 外れ値の影響を受けにくい
  • 誤差を直感的に解釈しやすい

MAPE(平均絶対パーセント誤差)

MAPE=100Ni=1Ny^iyiyiMAPE=\frac{100}{N}\sum_{i=1}^{N}\left|\frac{\hat{y}_i-y_i}{y_i}\right|MAPE=N100​i=1∑N​​yi​y^​i​−yi​​​

  • 誤差を割合で評価
  • スケールが異なるデータ間で比較しやすい

決定係数

R2=1(yiy^i)2(yiyˉ)2R^2=1-\frac{\sum (y_i-\hat{y}_i)^2}{\sum (y_i-\bar{y})^2}R2=1−∑(yi​−yˉ​)2∑(yi​−y^​i​)2​

  • モデルの当てはまりの良さを表す
  • 1に近いほど良い

その他の指標

  • RMSLE:対数スケールで誤差を評価
    → 成長率や指数的変化を扱う場合に有効

まとめ

  • 線形回帰は 連続値の予測
  • ロジスティック回帰は 確率を通じた2値分類
  • 分類では混同行列・ROC・AUCが重要
  • 回帰では RMSE / MAE / MAPE / 決定係数を使い分ける
  • 評価指標は ビジネス要件に応じて選ぶ

これらを整理して理解しておけば、
データサイエンティスト検定だけでなく、
実務でのモデル設計・説明にも十分対応できます。

上部へスクロール