数字にまつわる話

【ベイズ推定を解説します】彼女には子供が2人いて、少なくとも1人は息子。彼女に娘がいる確率は?

7758937784_4c22c2b708_z

 

ベイズ推定とは、観測された事実から推定したい事柄を確率的に推定する手法の1つです。

 

例)「あの学校から8人連続で男の子が出てきた」

→「あの学校は男子校である確率が高いな。共学の確率もまだ0ではないけど」

 

ベイズ推定は、統計感覚を身に着けるうえで絶対に学ぶ必要のある理論です。

しかし同時に、ベイズ推定は非常に誤解されやすい理論でもあります。

 

今回は、そんなベイズ推定にまつわる4パターンについて解説していきます。

photo credit:Marcus Hansson

 


スポンサーリンク

前提条件

前提①Aさん・Bさん・Cさん・Dさんにはそれぞれ子供が2人いる。双子はいない
前提②各親には、子供の性別の組み合わせが(男,男)(男,女)(女,男)(女,女)の4パターンあり、それぞれの存在確率は同じ(25%)とする。
前提③誰も嘘をつかない

と仮定します。

base

今回取り上げるベイズ推定では、4つの「子供の性別の組み合わせ」の親が各4人ずつの合計16人いると考えると分かりやすくなります。

(1)Aさんの上の子が男の子だと分かった。この時、Aさんの下の子が女の子である確率は?

Aさんの上の子が男の子だと分かった。この時、Aさんの下の子が女の子である確率は何%でしょうか?

 

前提②のうち、上の子が男の子であるパターンは(男,男)(男,女)の2パターンで、その存在確率は同じ(=50%)です。

そのため、下の子が女の子である確率=(男,女)の存在確率=50%となります。

 

ASAN

 

これは問題ないはず。

答え:50%

(2)「Bさんって息子さんいましたっけ?」とBさんに聞いたら「うん、いるよ」と答えた。この時、Bさんに娘がいる確率は?

「Bさんって息子さんいましたっけ?」とBさんに聞いたら「うん、いるよ」と答えた。この時、Bさんに娘がいる確率は何%でしょうか?

 

この場合、答えは1/2にはなりません。2/3になります。

 

前提②より子供2人の性別の組み合わせは(男,男)(男,女)(女,男)(女,女)の4パターンで、それぞれの存在確率は同じ(=25%)です。

このうち、「Bさんって息子さんいましたっけ?」という質問に「うん、いるよ」と答えるのは(男,男)(男,女)(女,男)の3パターンで、その存在確率は同じ(=33.33…%)。

 

そのため、Bさんに娘がいる確率=(男,女)の存在確率+(女,男)の存在確率=66.66…%となります。

 

Bsan

 

「ある子が男の子か女の子かの確率は50%でも、条件が加わると確率が変わる

これがベイズ推定の重要なポイントです。

答え:2/3=約66.7%

(3)「Cさん、お子さんの写真を見せてもらえませんか?」とCさんに尋ねたら息子さんが写った写真を見せてもらえた。この時、Cさんに娘がいる確率は?

「Cさん、お子さんの写真を見せてもらえませんか?」とCさんに尋ねたら息子さんが写った写真を見せてもらえた。この時、Cさんに娘がいる確率は何%でしょうか?

 

「あ、これはさっきと同じ問題だ。2/3でしょ?」と思ったあなたは要注意。

この問題の場合は、答えは1/2(=50%)と推定できます。

 

「え!?(2)と何が違うの?」と思うかもしれませんが、実は大きな違いがあるんです。

それは存在確率の差です。

 

(2)では、Bさんに娘がいようと息子が1人でもいれば必ず「うん、いるよ」と答えます。

しかし(3)では、Cさんに娘がいたら「Cさんは娘さんの写真を見せたかもしれない」という可能性が出てくるんです。

どちらの子供の写真を見せるかは50%と考えられるので、(男,女)(女,男)の2パターンの存在確率はそれぞれ(男,男)の存在確率の半分と推定できます。

 

そのため、Cさんに娘がいる確率=(男,女)の存在確率+(女,男)の存在確率=50%と推定できるんです。

CSAN

 

「推定」なのは、もし日本に「息子1人・娘1人の場合に子供の写真を見せてと頼まれたら、絶対に息子の写真を見せる」という文化があったなら、(2)と同じ現象になり、娘がいる確率は2/3となるからです。

 

反対に、Cさんが前に「女の子の写真を見せた方が喜ばれると思う」と発言していたなら、娘がいる確率は1/2よりもかなり低い確率だと推定できます。

(女の子の写真を見せた方が良いと考えているのに、息子の写真を見せた=どちらも男の子である可能性が高い)

 

いずれにしても、情報が事後確率を変動させていることに変わりはありません。

 

ただ、今回は「子供が2人いるCさんに子供の写真を見せてほしいといったら、息子の写真をみせてもらえた」以外に情報がないので、娘がいる確率は50%と推定されます。

 

なんとなく、ベイズ推定の仕組みが分かってきたのではないでしょうか?

答え:50%と推定できる

(4)Dさんには少なくとも息子が1人いることが分かった。この時、Dさんに娘がいる確率は?

さて、ここでタイトル回収。

Dさんには少なくとも息子が1人いることが分かった。この時、Dさんに娘がいる確率は何%でしょうか?

 

この問題の答え、分かりますか?

ぼくには分かりません。

 

数学的に考えると「少なくとも息子が1人いる」という情報は(2)と同じと考えられ、2/3という答えが出てきそうです。

 

しかし、本当にそうでしょうか?

 

一般的に、「息子さんが1人だけ写っている写真を見た」や「電話をかけたら息子さんが出た」といった情報を得た場合も日本語では「少なくとも息子が1人いることが分かった」と表現されます。

そして、これらは(3)と同じパターンなんです。

 

Dsan1

 

そう、「少なくとも息子が1人いる」という日本語からは、(息子1人・娘1人)の場合に(2)のように100%「息子がいる」と判明する情報取得法だったのか、(3)のように各50%の確率で「息子がいる」「娘がいる」のどちらかが判明する情報取得法だったのか、この問題文だけでは判別できないので、それを聞く必要があるんです。

 

「どうやってその情報を手に入れたのか」という情報が、事後確率を変動させるのですから。

 

記載がない以上、数学上はその情報は存在しないものとして2/3と「推定」することにはなりますが、実務的に考えれば、「どうやってその情報を手に入れたのか」という情報が存在しないなら、確率を計算する意味がありません。

 

よって、実務上は「少なくとも息子が1人だとどうやって判明したのか?」を質問する必要があります。

 

数学上は2/3と推定できるが、この問題文だけでは不十分。
実務では、どうやってその情報を手に入れたのかを考慮に入れる必要がある。

ベイズ推定による確率的思考は推理力を高める知恵

「なんだこれ。もうワケがわからない!」と思う人もいるかもしれませんが

実はこの計算、皆さんも無意識の間にやっていることなんですよ。

例えば…
部長「いやー、うちの子も小学生になってね。子供1人でも結構手がかかるよ」
(お子さんは1人なのか)→男50%女50%
部長「この前もサッカーで怪我をしたみたいだし」
(サッカーで怪我?男の子かな?)→男80%女20%
部長「親としてはもう少し大人しくしてほしいんだけどなぁ。あれじゃ将来結婚できるか心配だよ」
(ん?やんちゃな女の子ってことか?)→男30%女70%
部長「しかし、戦隊モノのオモチャも高いね。友達と一緒に遊ぶんだってせがまれて、大変だよ」
(やんちゃな女の子でも戦隊モノを好きになるのかな。分からなくなってきた)→男65%女35%
部長「でも、やっぱり娘は可愛いもんだね」
(女の子だったか)→女100%

 

話を聞く前から、部長の子供が男の子か女の子かは確定していて、それぞれ50%の確率のはずなのに、話を聞くにつれてその推理が変動していくのが分かります。

これは、情報量が「あなたの直感的確率」を変動させているのに他なりません。

 

これを数式できちんと表したのが、ベイズ推定です。

 

ベイズ推定は、うまく活用することで「直感的確率と実際の確率のズレ」を減らし、推理力を高めるのに便利な知恵です。

ただ、誤解しやすいだけに、注意して使いたいところですね。