ポアソン分布とは何か。その性質と使い方を例題から解説 【馬に蹴られて死ぬ兵士の数を予測した数式】

最後までお読みいただき、ありがとうございます。ツイッターやブログ等でシェアしていただけると、非常に励みになります

5951748491_39aa154809_z

「1年あたり平均0.61人の兵士が馬に蹴られて死ぬ」軍隊において、「1年に何人の兵士が馬に蹴られて死ぬかの確率の分布」を求める。

それが、歴史上で初めてポアソン分布が使われた瞬間だと言われています。

以来、ポアソン分布は主に「ランダムに起きる事故・病気の発症」などにおいて「特定の期間中に何回起こる確率が何%あるのか」を可能な限り正確に把握することで、適切なリスク管理を行うのに活躍しています。

photo credit:Moyan Brenn

ポアソン分布とは?

ポアソン分布とは、(どの時点でも同様な起こりやすさでランダムに起こる現象と仮定した場合に)「単位時間あたりに平均 λ 回起こる現象が、単位時間に k 回起きる確率」を表すのに使われる確率分布のこと。

この「単位時間あたりに平均 λ 回起こる現象が単位時間に k 回起きる確率」は多くの場合、以下の式で表されることが分かっています。

poissonP

この式は、パラメータが n と p=λ/n である二項分布において、λ を一定にしたまま n を無限大に近づけることで近似的に求まります。(ポアソンの極限定理)

二項分布とは?

poisson-kyokugen

この性質から、ポアソン分布は二項分布の連続時間版と考えることができます。
※ e(≒2.718)自然対数の底(ネイピア数)

そして、確率変数 X がこの式の条件を満たしているとき、「確率変数 X はパラメータ λ のポアソン分布に従う」と言います。

poisson-definition

数式だけではイメージが湧きにくいと思うので、λ=1.5 のポアソン分布と λ=3のポアソン分布を見ていくと、こんな感じになります。

lambda1-5-3

ポアソン分布の平均と分散はどちらもλ

ポアソン分布の特徴の中でも代表的なのが、「平均も分散もλ」なこと。

ev

「単位時間あたりに平均 λ 回起こる現象」に関する確率分布なので平均(期待値)が λ になるのは分かりやすい一方で、分散も λ になるというのは面白いですね。

二項分布ではV[X]=np(1-p)で、ポアソン分布は二項分布の「p=λ/nかつn→∞」版と考えるとV[X]=λになるのが分かりやすいかと思います。

ポアソン分布の平均(期待値)と分散を求めるには、exマクローリン展開を利用します。

poisson-ev

ポアソン分布は数式の中に λ や e や階乗(!)を含んでいるせいでパッと見は分かりにくいと思うかもしれませんが、実際には「意外と簡単で、使いやすい確率分布」なので、具体的な使い方を見ながらポアソン分布を理解していきましょう。

ポアソン分布は具体的にどう使うのか

ポアソン分布は、例えば「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率」を求めるのに便利な分布です。

poissonexa

この場合、求めたいのは「1時間に6回電話がかかって来る確率」なので、
単位時間は「1時間=60分」で、「k=6(回)」となります。

λは単位時間あたりの平均生起回数なので、30分に平均2回→1時間に平均4回から「λ=4」となります。

λとkが求まったら、この「λ=4」と「k=6」を、先ほどの数式に代入してみましょう。

lambda4

約0.104という値が求まりました。

これはつまり、「30分に平均2回電話がかかって来るコールセンターにおいて、1時間に6回電話がかかって来る確率は約10.4%である」ということを意味します。

これ、意外と高い確率ですよね。

ここから、「30分に平均2回しか電話がこないなら、1時間に6回も電話がかかってくることはないだろう」と油断してはいけない、ということが分かります。

ちなみに、λ=4のポアソン分布のk=0からk=12までをまとめた表とグラフはこんな感じ。

4-lambda

「k=8までの確率の累計」が0.978637という事は、「k=9以上の確率」が約2.13%あるということを意味します。

逆に「k=0の確率」も約1.83%あります。

ここから分かることは、1時間だけコールセンターの担当をする場合、合計50回も担当すれば「9回以上電話がかかってきてしまう」ことも「1回も電話がかかってこない」こともそれぞれ1回くらいは経験するのが普通、ということです。

このように、「○分で平均△回起きる現象が、◇分で☆回起きる確率」を求めたいときに便利な確率分布。それがポアソン分布です。

使い道の広さと弱点

ポアソン分布は「事故の発生回数」や「サーバーへのアクセス数」など、様々なものに活用することができますが、使う上で1つ注意すべきことがあります。

それは、ポアソン分布は「完全にランダムではない事象」に対しては正確な分析が出来ないという弱点を持っていること。

例えば先のコールセンターの例で言えば、「テレビで取り上げられた場合」には、たった1時間の間に普段では考えられないほど多くの問い合わせ電話がかかってくることが予想されますよね。

このように各事象の発生が完全にランダムというわけではなく、他の事象発生との間に強い相関関係があるようなケースでは、ポアソン分布は機能しにくくなってしまうんです。

相関関係と因果関係の違いが一発でわかる具体例5選
数字は嘘をつかなくとも、データを言葉に翻訳するときに嘘に変わることがあります。 その

ポアソン分布は「完全にランダムに出現する傾向」が強い事象であるほど、その有用性を発揮します。

そういう意味では、「馬に蹴られて兵士が死ぬ」というランダム性の高い事象がポアソン分布の初の実用例となったのは、当然のことなのかもしれません。