コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について

コインを投げると、試行結果は基本的に「表」か「裏」かの2通りだけですよね。

※試行：コイン投げのように同じ条件で何度も繰り返す事ができ、その結果が偶然により決まる実験・観測のこと

このように、試行結果が「〇か × か」や「成功か失敗か」といった2種類しかない試行のことを、統計学ではベルヌーイ試行と呼びます。

ここで「互いに独立したベルヌーイ試行を n 回行ったときにある事象が何回起こるかの確率分布」のことを、二項分布と言います。※英語では Binomial Distribution

たとえば、
「30%の確率で表が出る特殊なコインを 4 回投げたときに、表が k 回でる確率の分布」
「サイコロを200回投げたときに、1の目が k 回でる確率の分布」
などが二項分布にあたります。

エクセルでは、BINOM.DIST関数で求められます。

二項分布は、その定義や数式をみるとややこしく感じるかもしれませんが、
具体例を通じて考えれば非常に使いやすくてわかりやすい分布です。

今回は、そんな二項分布の性質について、「正規分布やポアソン分布との違い・関係性・近似法」も交えて解説していきます。

photo credit:motoyen

二項分布とは？その確率関数

二項分布とは、互いに独立したベルヌーイ試行(成功確率\(= p\) , 失敗確率\(= 1-p\) )を \(n\) 回繰り返したときの成功回数に関する離散確率分布のこと。

二項分布は \(B(n, p)\) または \(Bin(n, p)\) と表記され、以下の確率関数で表されます。

＞組み合わせの数とは？

また、ある確率変数 \(X\) が二項分布 \(B(n, p)\) に従う場合、『\(X \sim B(n, p)\)』と表記されます。

二項分布でまずおさえておきたいのが、確率関数の使い方です。

例えば、「30%の確率で表がでる特殊なコインを 4 回投げたときに、表が \(k\) 回でる確率の分布」は、この確率関数に \(n = 4 , p = 0.3\) を代入することで以下のように求められます。

確率関数は「確率 \(p\) で起きることが \(k\) 回」「確率 \((1-p)\) で起きることが \((n-k)\) 回」あって、そのパターンが「全部で \(_{n}C_{k}\) 通り存在する」と考えると覚えやすいです。

二項分布は、対戦ゲームで「80％の確率で当たる攻撃を5回やって、3回以下しか当たらない確率」を計算したいときなどにも重宝する分布です。計算してみると、約26.3％。意外と当たらないことも多い！

二項分布の平均(期待値)と分散・標準偏差の導出

二項分布 \(B(n, p)\) に従う確率変数 \(X\) の期待値は \(np\) 、分散は \(np(1-p)\)、標準偏差は分散の平方根で表されます。

期待値とは、例えば「30%の確率で表が出るコインを4回投げたら平均的には何回表が出るか」を表す値ですから \(n×p=np ⇔ 4×0.3=1.2\) となります。

分散の考え方としては

\(i\) 回目に失敗したら \(0\) ・成功したら \(1\) をとる確率変数を \(X_i (i=1,2,\cdots,n)\) としたとき、

\(X_i\)の期待値は \(E[X_i]=0×(1-p)+1×p=p\)

\(X_i\)の分散は「偏差の2乗の期待値」なので

\(V[X_i]=p^2×(1-p)+(1-p)^2×p\)

\(=p×(1-p)×(p + 1-p)=p(1-p)\)

そして、確率変数 \(X\) はこれを \(n\) 回繰り返したものなので

\(V[X]=V[X_1+X_2+\cdots+X_n]\)

\(=V[X_1]+\cdots+V[X_n]=np(1-p)\)

になる、というわけです。

「難しくてピンとこない…」場合でも、とりあえず期待値は \(np\) ,分散は \(np(1-p)\) と暗記しておくと便利です。

まずはこの期待値と分散を使って次の正規近似ができるようになることを最優先に考えたほうが、その有用性を実感しやすいのでオススメです。

np(1－p) が十分大きいと正規分布に近似

たとえば、「サイコロを200回投げたときに、1の目は何回くらいでるものなのか？」を考えてみましょう。

（試行回数 \(n=200\)、成功確率 \(p=1/6\)）

By: Edwin Torres

期待値的には大体 \(200×1/6 ≒33.3\) より33回か34回くらい出そうですが、標準偏差の記事でも書いた通り、平均（期待値）はそれ単体ではあまり役に立ちません。

期待値だけでは「30回以下しか出ないケースや、40回以上出るケースは珍しいことなのか？」が分からないんです。

これを正確に調べるには二項分布の確率関数を使う事になるのですが、試行回数が \(n=200\) と非常に大きいため、\(_{n}C_{k}\) や \(p^k\) の計算量が膨大でコンピュータでもないと計算できません。

そこで役に立つのが、正規分布による近似（正規近似・ラプラスの定理）です。

実は、二項分布は分散 \(np(1-p)\) が十分に大きければ、下図のような形・確率密度関数をした正規分布として近似できるという性質があるんです。

※ μ[平均]＝np , σ²[分散]＝np(1－p)

正規分布に近似できれば、「正規分布とは何なのか？その基本的な性質と理解するコツ」の記事でも書いた通り、「平均との差が標準偏差何個分か？」という視点でみることにより、楽に確率を求められます。

具体的な計算法は、以下の通り。

以上から、「200回サイコロを投げたときに1の目が出る回数」は

約68％の確率で28回～38回におさまり

約87％の確率で26回～41回におさまり

約95％の確率で23回～44回におさまる

ということが分かりました。

正規近似は概算値ではありますが、計算量が格段に減る便利なテクニックです。

ぜひ、覚えておきたいところ。

二項分布と正規分布の違いによる誤差と、近似基準

ここで、近似というと

「正確な値と比べてどのくらい誤差が出るんだろう？」
「 \(np(1-p)\) がいくつ以上なら近似しても大丈夫なの？」

と気になる方もいるかと思います。

そこで、コンピュータを使って「200回サイコロを投げたときに1の目が出る回数」に関する正確な出現確率を調べてみると

28回～38回⇒約70.4％、26回～41回⇒約87.1％、23回～44回⇒約96.4％

正規分布が、精度の高い近似になっていることが分かります。

近似基準としては

① \(min(np,n(1-p))>10\)

② \(0.1≤p≤0.9\) かつ \(np(1-p)>5\)

③ \(np(1-p)>25\)

の3通り存在します。(出典：統計分布ハンドブック)

今回は、一番厳しい基準の③を満たしているおかげで、精度の高い近似になっているということですね。

nが大きくpが小さいとポアソン分布に近似

\(np(1-p)\) がそこまで大きくはなく、上述の近似基準を満たさない場合、正規近似を使うことはできません。

しかし、そういう場合でも \(n\) が十分に大きく、\(p\) が十分に小さいときはポアソン分布に近似することができます。

ネイピア数の記事でも書きましたが、例えば「2分に平均1回起きる現象」というのは

①「1分ごとに、50%の確率で起きるかどうかの判定が行われている」というよりも

②「限りなく短い時間ごとに、限りなく小さい確率で起きるかの判定が行われている」

と考えた方がより的確に実態を表わしていると考えられるので、二項分布よりポアソン分布のほうが適しているんです。

具体的な計算方法については、「ポアソン分布とは何か。その性質と使い方を例題から解説」の記事をご参照ください。

適している計算対象の違い

\(n\)：試行回数　\(p\)：成功確率

①二項分布を使った計算：コイン投げのように \(0.1≤p≤0.9\) で、 \(n≤20\) のときに特に便利(コンピュータを使うなら \(n\) がもっと大きくてもOK)

②正規分布を使った計算：200回のサイコロ投げのように \(n\) が大きく \(np(1-p)≥25\) のときに便利

③ポアソン分布を使った計算：「単位時間あたりに、ある現象が何回起こるか」のように \(p\) が非常に小さい値のときに便利

世の中の多くの現象は「○か×か」の積み重ねで出来ているため、二項分布と正規近似・ポアソン近似を理解すれば色んな現象の確率を求められます。ぜひ、マスターしてください！

この辺りの論点の解説が分かりやすい問題集としては、スバラシク実力がつくと評判の演習統計学キャンパス・ゼミ

あたりがオススメです。

二項分布とは？その確率関数

二項分布の平均(期待値)と分散・標準偏差の導出

np(1－p) が十分大きいと正規分布に近似

二項分布と正規分布の違いによる誤差と、近似基準

nが大きくpが小さいとポアソン分布に近似

適している計算対象の違い

回帰分析とその主な目的。単回帰分析・重回帰分析・ロジスティック回帰分析の違いについて

対数変換を行う意味について。回帰分析において対数変換する背景にある前提とは？

相関関係と因果関係の違いが一発でわかる具体例5選