データサイエンティスト検定™ リテラシーレベル|ベイズの定理と条件付き確率を迷惑メール例で理解する

データ分析や機械学習では、
「ある情報を知ったあとで、確率をどう更新するか」
という考え方が非常に重要になります。

その中心となるのが ベイズの定理 です。


1. 条件付き確率の復習

まず、条件付き確率を確認します。

事象 A が起こったという条件の下で、事象 B が起こる確率 は、P(BA)=P(AB)P(A)P(B \mid A) = \frac{P(A \cap B)}{P(A)}P(B∣A)=P(A)P(A∩B)​

で定義されます。

これは、

「A が起こった世界だけを考えたとき、B がどれくらいの割合で起こるか」

を意味しています。


2. ベイズの定理とは何か

上記の条件付き確率の式を変形すると、次の関係が得られます。P(BA)=P(AB)P(B)P(A)P(B \mid A) = \frac{P(A \mid B) P(B)}{P(A)}P(B∣A)=P(A)P(A∣B)P(B)​

これを ベイズの定理 といいます。

https://cdn.analyticsvidhya.com/wp-content/uploads/2025/06/Main-image-1-1.webp
https://www.probabilitycourse.com/images/chapter1/conditional_b.png

3. 事前確率と事後確率

ベイズの定理では、確率を次のように解釈します。

  • 事前確率
    • P(B)P(B)P(B)
    • 何も情報がない段階での確率
  • 事後確率
    • P(BA)P(B \mid A)P(B∣A)
    • A が起こったという情報を得た後の確率

つまり、ベイズの定理とは、

新しい情報を得ることで、確率をどのように更新するか

を表した式です。


4. ベイズの定理の別表現

分母の P(A)P(A)P(A) は、
A が起こる全体確率(周辺確率)であり、次のように分解できます。P(A)=P(AB)P(B)+P(ABc)P(Bc)P(A) = P(A \mid B)P(B) + P(A \mid B^c)P(B^c)P(A)=P(A∣B)P(B)+P(A∣Bc)P(Bc)

これを用いると、ベイズの定理は次の形でも表せます。P(BA)=P(AB)P(B)P(AB)P(B)+P(ABc)P(Bc)P(B \mid A) = \frac{P(A \mid B)P(B)} {P(A \mid B)P(B) + P(A \mid B^c)P(B^c)}P(B∣A)=P(A∣B)P(B)+P(A∣Bc)P(Bc)P(A∣B)P(B)​

この形は 実務・試験の両方で非常によく使われます


5. 迷惑メールの例で考える

ここからは、ベイズの定理を
迷惑メール判定 の例で具体的に見ていきます。


事象の定義

次の事象を定義します。

  • A:メールに「お得」という文字が書かれている
  • Aᶜ:メールに「お得」という文字が書かれていない
  • B:迷惑メールである
  • Bᶜ:迷惑メールでない

与えられている確率

  • すべてのメールにおいて
    • 迷惑メールである確率 P(B)P(B)P(B)
    • 迷惑メールでない確率 P(Bc)P(B^c)P(Bc)
  • 条件付き確率
    • 迷惑メールに「お得」と書かれている確率 P(AB)P(A \mid B)P(A∣B)
    • 迷惑メールではないが「お得」と書かれている確率 P(ABc)P(A \mid B^c)P(A∣Bc)

6. 求めたい確率(事後確率)

求めたいのは、

「お得」と書かれているという条件の下で、
そのメールが迷惑メールである確率

すなわち、P(BA)P(B \mid A)P(B∣A)

です。


7. ベイズの定理による計算

ベイズの定理を用いると、P(BA)=P(AB)P(B)P(AB)P(B)+P(ABc)P(Bc)P(B \mid A) = \frac{P(A \mid B)P(B)} {P(A \mid B)P(B) + P(A \mid B^c)P(B^c)}P(B∣A)=P(A∣B)P(B)+P(A∣Bc)P(Bc)P(A∣B)P(B)​

となります。

この式から分かる重要なポイントは、

  • 「お得」という単語が
    • 迷惑メールにどれくらい含まれるか
    • 通常メールにもどれくらい含まれるか
  • そもそも迷惑メールが全体にどれくらいあるか

という 3つの情報すべてが影響する という点です。


8. ベイズの定理の直感的な意味

この例から分かるように、ベイズの定理は

  • 単に
    「迷惑メールに『お得』が多い」
  • という情報だけではなく

全体に占める迷惑メールの割合(事前確率)を加味して判断する

ための枠組みです。

そのため、

  • 条件付き確率
  • 周辺確率
  • 事前・事後確率

を混同しないことが極めて重要です。


まとめ

  • ベイズの定理は条件付き確率の変形
  • 事前確率:情報を得る前の確率
  • 事後確率:情報を得た後の確率
  • 新しい情報により確率を更新する考え方
  • 迷惑メール判定などの実務に直結する

ベイズの定理は、

統計・機械学習・AI の根幹をなす考え方

であり、
データサイエンティスト検定™ リテラシーレベルでも確実に押さえておくべき重要テーマです。

上部へスクロール