ベイズの定理とは何か。条件付き確率からわかる判別の知恵

 

今回は、条件付き確率とベイズの定理について書いていきます。

 

条件付き確率とは

ある事象Aが起こったという条件のもとでの事象Bの確率 P(B|A) のことを、「Aを与えたときのBの条件付き確率」と言います。

P(B|A)は、PA(B)と表記されることもあります。

読み方はP B given A(ピーBギブンA)です。

 

P(B|A)は、以下の公式から求められます。

 

黄色い部分が分母、赤い斜線部が分子です。

 

条件付き確率の例題

数式だけだとイメージが湧きにくいと思うので、以下の例題を解いてみましょう。

(サイコロの各目の出る確率はそれぞれ1/6とします)

例題)サイコロを振って偶数の目が出た場合に、それが4以上の目である確率は?

A「偶数の目が出た」という条件のもとで、B「それが4以上の目である」確率P(B|A)を求めます。

 

「偶数の目が出る確率 P(A)=1/2」「偶数かつ4以上の目(つまり4か6)が出る確率 P(A∧B)=1/3」であることから、公式をこのように使います。

P(B|A)=2/3と求まりました。

 

ここから「サイコロを振って偶数の目が出たという条件のもとで、それが4以上の目でもある確率」は2/3であることがわかります。

 

Tooda Yuuto
「サイコロを十分に多くの回数振って、そのうち『偶数の目が出た』という結果だけを集めたら、2/3の割合で4以上の目でもある」ということができます。

 

 

条件付き確率のイメージがつかめてきたでしょうか?

 

ベイズの定理とは

P(B|A)の逆確率であるP(A|B)は、P(B|A)とP(A)の積をP(B)で割ることで求められる。

これを、ベイズの定理と言います。

「ある事象Aが起こったという条件のもとでの事象Bの確率 P(B|A)」を使って

「ある事象Bが起こったという条件のもとでの事象Aの確率 P(A|B)」を求めよう

というのがベイズの定理の特徴です。

 

この式において、P(A)を事前確率・P(B|A)を尤度・P(A|B)を事後確率と言います。

 

条件付き確率の公式を少し式変形しただけなので、「なぜわざわざベイズの定理を習うの?」と疑問に思う方もいるかもしれませんが、この形のほうが応用が利きやすいので、ぜひ覚えておいてください。

 

ちなみに、ベイズの定理の導出は以下のようになります。

 

迷惑メールを自動的に発見・分類する知恵

ベイズの定理(条件付き確率)が役に立っている代表例として、迷惑メールを自動的に発見・分類してくれるフィルタリング機能が挙げられます。

例題)過去の調査から、無作為に選んだメールの20%が迷惑メール、80%が一般メールだと分かった。

調査によると、迷惑メールが『キャンペーン』という単語を含んでいる確率は30%、一般メールが『キャンペーン』という単語を含んでいる確率は4%である。

無作為に選んだメールが『キャンペーン』という単語を含んでいた場合、これが迷惑メールである確率は?

A:迷惑メールである

B:『キャンペーン』という単語を含んでいる

とおいて考えてみましょう。

 

まず、過去の調査から「無作為に選んだメールが迷惑メールである確率」はP(A)=0.2 だと分かっています。

 

次に、無作為に選んだメールが『キャンペーン』という単語を含んでいたという条件のもとで、それが迷惑メールである確率を求めます。

 

迷惑メールが『キャンペーン』という単語を含んでいる確率は30%

一般メールが『キャンペーン』という単語を含んでいる確率は4%

という情報を反映させてみましょう。

迷惑メール(0.2)という条件の下で『キャンペーン』という単語を含んでいる確率は0.3なので、「迷惑メールかつキャンペーンという単語を含んでいる確率」は 0.2×0.3

一般メール(0.8)という条件の下で『キャンペーン』という単語を含んでいる確率は0.04なので、「一般メールかつキャンペーンという単語を含んでいる確率」は 0.8×0.04

となります。

 

この図から、「無作為に選んだメールがキャンペーンという単語を含んでいる確率」は

P(B)=0.2×0.3+0.8×0.04=0.092だと分かります。(図の黄色い部分に相当)

 

 

あとは、黄色い部分を分母、赤い斜線部を分子にとることで「無作為に選んだメールが『キャンペーン』という単語を含んでいたという条件のもとで、それが迷惑メールである確率」は P(A|B)≒0.652 と求まります。

 

事前確率P(A)=0.2、尤度P(B|A)=0.3、P(B)=0.092
事後確率P(A|B)=0.2×0.3/0.092≒0.652

 

このように『キャンペーン』という単語を含んでいたことに着目することで、それが迷惑メールである可能性が20%から約65.2%、実に3倍にまで高まったことが示されました。

これを、ベイズ更新と言います。

 

Tooda Yuuto
ここからさらに『会員登録』『出会い』といった単語を含んでいれば、それについてさらにベイズ更新を重ねていき、迷惑メールである確率が相当高いと判断されたら迷惑メールボックスへと振り分けられます。

 

SPONSORED LINK

 

ツイッターやブログ等でシェアしていただけると、非常に励みになります。

Tooda Yuuto
大阪大学を卒業後、数字とにらめっこする日々を送る社会人。当たり前なようでアタリマエじゃないことを日々探しています。