【ベイズ推定を解説します】彼女には子供が2人いて、少なくとも1人は息子。彼女に娘がいる確率は?→1/2でしょ?→いいえ2/3です→いやそれは違う

最後までお読みいただき、ありがとうございます。ツイッターやブログ等でシェアしていただけると、非常に励みになります

7758937784_4c22c2b708_z

数学系のサイトなら一度は物議を呼ぶ題材、ベイズ推定。

ベイズ推定とは、観測された事実から推定したい事柄を確率的に推定する手法の1つです。

例)「あの学校から8人連続で男の子が出てきた」
→「あの学校は男子校である確率が高いな。共学の確率もまだ0ではないけど」

ベイズ推定は、統計感覚を身に着けるうえで絶対に学ぶ必要のある理論です。

しかし同時に、ベイズ推定は非常に誤解されやすい理論でもあります。

今回は、そんなベイズ推定にまつわる4パターンについて解説していきます。

photo credit:Marcus Hansson

前提条件

前提①Aさん・Bさん・Cさん・Dさんにはそれぞれ子供が2人いる。双子はいない
前提②各親には、子供の性別の組み合わせが(男,男)(男,女)(女,男)(女,女)の4パターンあり、それぞれの存在確率は同じ(=25%)とする。
前提③誰も嘘をつかない

と仮定します。

base

今回取り上げるベイズ推定では、4つの「子供の性別の組み合わせ」の親が各4人ずつの合計16人いると考えると分かりやすくなります。

(1)Aさんの上の子が男の子だと分かった。この時、Aさんの下の子が女の子である確率は?

Aさんの上の子が男の子だと分かった。この時、Aさんの下の子が女の子である確率は何%でしょうか?

前提②のうち、上の子が男の子であるパターンは(男,男)(男,女)の2パターンで、その存在確率は同じ(=50%)です。

そのため、下の子が女の子である確率=(男,女)の存在確率=50%となります。

ASAN

これは問題ないはず。

答え:50%

(2)「Bさんって息子さんいましたっけ?」とBさんに聞いたら「うん、いるよ」と答えた。この時、Bさんに娘がいる確率は?

「Bさんって息子さんいましたっけ?」とBさんに聞いたら「うん、いるよ」と答えた。この時、Bさんに娘がいる確率は何%でしょうか?

この場合、答えは1/2にはなりません。2/3になります。

前提②より子供2人の性別の組み合わせは(男,男)(男,女)(女,男)(女,女)の4パターンで、それぞれの存在確率は同じ(=25%)です。

このうち、「Bさんって息子さんいましたっけ?」という質問に「うん、いるよ」と答えるのは(男,男)(男,女)(女,男)の3パターンで、その存在確率は同じ(=33.33…%)。

そのため、Bさんに娘がいる確率=(男,女)の存在確率+(女,男)の存在確率=66.66…%となるのです。

Bsan

「ある子が男の子か女の子かの確率は50%でも、条件が加わると確率が変わる

これがベイズ推定の重要なポイントです。

答え:2/3=約66.7%

(3)「Cさん、お子さんの写真を見せてもらえませんか?」とCさんに尋ねたら息子さんが写った写真を見せてもらえた。この時、Cさんに娘がいる確率は?

「Cさん、お子さんの写真を見せてもらえませんか?」とCさんに尋ねたら息子さんが写った写真を見せてもらえた。この時、Cさんに娘がいる確率は何%でしょうか?

「あ、これはさっきと同じ問題だ。2/3でしょ?」と思ったあなたは要注意。

この問題の場合は、答えは1/2(=50%)と推定できます。

「え!?(2)と何が違うの?」と思うかもしれませんが、実は大きな違いがあるんです。

それは存在確率の差です。

(2)では、Bさんに娘がいようと息子が1人でもいれば必ず「うん、いるよ」と答えます。

しかし(3)では、Cさんに娘がいたら「Cさんは娘さんの写真を見せたかもしれない」という可能性が出てくるのです。

どちらの子供の写真を見せるかは50%と考えられるので、(男,女)(女,男)の2パターンの存在確率はそれぞれ(男,男)の存在確率の半分と推定できます。

そのため、Cさんに娘がいる確率=(男,女)の存在確率+(女,男)の存在確率=50%と推定できるのです。

CSAN

「推定」なのは、もし日本に「息子1人・娘1人の場合に子供の写真を見せてと頼まれたら、絶対に息子の写真を見せる」という文化があったなら、(2)と同じ現象になり、娘がいる確率は2/3となるからです。

反対に、Cさんが前に「女の子の写真を見せた方が喜ばれると思う」と発言していたなら、娘がいる確率は1/2よりもかなり低い確率だと推定できます。

(女の子の写真を見せた方が良いと考えているのに、息子の写真を見せた=どちらも男の子である可能性が高い)

いずれにしても、情報が事後確率を変動させていることに変わりはありません。

ただ、今回は「子供が2人いるCさんに子供の写真を見せてほしいといったら、息子の写真をみせてもらえた」以外に情報がないので、娘がいる確率は50%と推定できるのです。

なんとなく、ベイズ推定の仕組みが分かってきたのではないでしょうか?

答え:50%と推定できる。

(4)Dさんには少なくとも息子が1人いることが分かった。この時、Dさんに娘がいる確率は?

さて、ここでタイトル回収。

Dさんには少なくとも息子が1人いることが分かった。この時、Dさんに娘がいる確率は何%でしょうか?

この問題の答え、分かりますか?

ぼくには分かりません。

数学的に考えると「少なくとも息子が1人いる」という情報は(2)と同じと考えられ、2/3という答えが出てきそうです。

しかし、本当にそうでしょうか?

一般的に、「息子さんが1人だけ写っている写真を見た」や「電話をかけたら息子さんが出た」といった情報を得た場合も日本語では「少なくとも息子が1人いることが分かった」と表現されます。

そして、これらは(3)と同じパターンなのです。

Dsan1

そう、「少なくとも息子が1人いる」という日本語からは、(息子1人・娘1人)の場合に(2)のように100%「息子がいる」と判明する情報取得法だったのか、(3)のように各50%の確率で「息子がいる」「娘がいる」のどちらかが判明する情報取得法だったのか、この問題文だけでは判別できないので、それを聞く必要があるんです。

「どうやってその情報を手に入れたのか」という情報が、事後確率を変動させるのですから。

記載がない以上、数学上はその情報は存在しないものとして2/3と「推定」することにはなりますが、実務的に考えれば、「どうやってその情報を手に入れたのか」という情報が存在しないなら、確率を計算する意味がありません。

よって、実務上は「少なくとも息子が1人だとどうやって判明したのか?」を質問する必要があるのです。

数学上は2/3と推定できるが、この問題文だけでは不十分。
実務では、どうやってその情報を手に入れたのかを考慮に入れる必要がある。

おまけ:さらに言えば…

さらに言うと、(2)でも「うん、いるよ」という返答には「男の子が少なくとも1人いる」以上の情報量があります。

それは「うん、いるよ。どっちも男の子」や「うん、いるよ。娘もいるけどね」とは返答しなかったという情報です。

(男,男)の場合に「うん、いるよ。どっちも男の子」と返答する確率と、(男,女)や(女,男)の場合に「うん、いるよ。娘もいるけどね」と返答する確率に差があれば、またまた確率が変わって来てしまいます。

ただ、ここまで考え出すと一生答えが出てこなくなってくるので、統計学ではある程度の情報を無視して「推定」されています。これは実務上の便益を考えれば妥当と言えるでしょう。

ベイズ推定による確率的思考は推理力を高める知恵

「なんだこれ。もうワケがわからない!」と思う人もいるかもしれませんが

実はこの計算、皆さんも無意識の間にやっていることなんですよ。

例えば…
部長「いやー、うちの子も小学生になってね。子供1人でも結構手がかかるよ」
(お子さんは1人なのか)→男50%女50%
部長「この前もサッカーで怪我をしたみたいだし」
(サッカーで怪我?男の子かな?)→男80%女20%
部長「親としてはもう少し大人しくしてほしいんだけどなぁ。あれじゃ将来結婚できるか心配だよ」
(ん?やんちゃな女の子ってことか?)→男30%女70%
部長「しかし、戦隊モノのオモチャも高いね。友達と一緒に遊ぶんだってせがまれて、大変だよ」
(やんちゃな女の子でも戦隊モノを好きになるのかな。分からなくなってきた)→男65%女35%
部長「でも、やっぱり娘は可愛いもんだね」
(女の子だったか)→女100%

話を聞く前から、部長の子供が男の子か女の子かは確定していて、それぞれ50%の確率のはずなのに、話を聞くにつれてその推理が変動していくのが分かります。

これは、情報量が「あなたの直感的確率」を変動させているのに他なりません。

これを数式できちんと表したのが、ベイズ推定です。

ベイズ推定は、うまく活用することで「直感的確率と実際の確率のズレ」を減らし、推理力を高めるのにひじょうに便利な知恵です。

ただ、誤解しやすいだけに、注意して使いたいところですね。