統計学

正規分布とは何なのか?その基本的な性質と理解するコツ

R1014560.JPG

 

「サイコロを何回も投げたときの出目の合計の分布」

「全国の中学生の男女別の身長分布」

「大規模な模試の点数分布」

 

皆さんは、こういったデータのグラフを見せられたとき『平均付近が一番高く、平均から離れるにつれて緩やかに低くなっていく、左右対称な釣り鐘型の分布』であるケースが多いな、と感じたことはありませんか?

 

seiki-dosu

 

こういった、左右対称・釣り鐘型の性質をもつ分布として代表的なものが、正規分布(ガウス分布)です。

 

正規分布は英語で Normal distribution と言うことからも分かるように『この世でもっとも一般的な分布』であり、「誤差の大きさの出現確率」をはじめ、さまざまな社会現象や自然現象に当てはまる確率分布です。

 

つまり、正規分布を知れば「その発生確率を計算できる現象」がグッと増えてくるということ。

 

今回は、そんな正規分布の基本的な性質について書いていきます。

photo credit:Yasuo Kida

スポンサーリンク

正規分布の表記法と確率密度関数を知ろう

正規分布とは、平均を μ ・分散を σ2 とした場合に以下の確率密度関数で表される確率分布を指し、N(μ, σ2)と表記されます。>確率密度関数とは?

 

また、ある確率変数 X の確率分布が正規分布N(μ, σ2)であるとき「確率変数 X はN(μ, σ2)に従う」と言い、『X ~ N(μ, σ2)』と表記されます。

 

seiki-bunpu

※ exp(x)は、eのx乗を意味する指数関数。

※ e(≒2.718)は自然対数の底で、ネイピア数とも言います。

 

 

数式だけ見るとややこしそうに見えるかもしれませんが、実際にグラフに書いてみるとこんな形になります。

 

seikibunpu-graph

 

山のような形をした、綺麗なグラフですね。

 

Tooda Yuuto
Tooda Yuuto
とりあえずは「この左右対称な釣り鐘型(山型)の分布を正規分布と言って、その正確な形を数式で表そうとしたらさっきの確率密度関数になるんだな」とおさえておけばOKです。

 

このグラフの見方としては、例えば「μ-σ 以上 μ 以下になる確率」=『オレンジで塗りつぶされた部分の面積』となります。

 

例題)日本の成人男性の平均身長 μ=171cm、標準偏差 σ=6cmとする。

正規分布に従うと仮定した場合、日本中からランダムに1人選ばれた成人男性の身長が165cm以上171cm以下である確率は何%か?

→「μ-σ 以上 μ 以下の確率は何%か?」と聞いているのと同じ

→『オレンジで塗りつぶされた部分の面積』を求めると、約0.3413

よって、ランダムに選ばれた成人男性1人の身長が165cm以上171cm以下である確率は約34.13%

 

世の中の社会現象や自然現象の中には、その確率変数が正規分布に従うとみなせるものが数多く存在するため、その平均と標準偏差が分かれば、多くの現象について「どういった事がどれくらいの確率で発生するのか」を計算できるようになるんです。

 

標準偏差とは何か?その求め方や公式の意味・使い方をわかりやすく説明します 統計学を学ぶうえで欠かすことのできない値、標準偏差(standard deviation,SD)。 標準偏差という数値のおかげ...

 

これが、『正規分布+標準偏差』の凄いところです。

 

また、その確率変数が正規分布に従わない現象であっても、その標本平均の確率分布はサンプルサイズ n が大きければ正規分布で近似できる性質(中心極限定理)があることが分かっています。この性質は、選挙の出口調査などで利用されています。

 

「平均との差が標準偏差○個分」という視点を持とう

正規分布は、「平均との差が標準偏差何個分か」という視点で見ると、一気に理解しやすくなります。

 

hyoujunka

 

たとえば、正規分布には

平均 ± 1×標準偏差の範囲に全体の約68.3%が含まれ、

平均 ± 2×標準偏差の範囲に全体の約95.5%が含まれ、

平均 ± 3×標準偏差の範囲に全体の約99.7%が含まれる

ということが分かっています。

 

 

平均と標準偏差の値がいくつであっても、その分布が正規分布である限り、この比率は変わりません。

 

標準正規分布表で比率をチェックしてみよう

こういった比率は、標準正規分布表と呼ばれる表にまとめられています。

 

標準正規分布表は通常、統計書の巻末に記載されており、正規分布を用いた計算をするときはこの表を見ながら行います。

seikibunpu-hyo

P(0≦Z≦z)は「平均」から「平均 + z ×標準偏差」の間にどれだけの割合が含まれるかの一覧

P(Z≧z)は「平均 + z ×標準偏差」以上の間にどれだけの割合が含まれるかの一覧を表しています。

 

0.5000から片方の一覧の数値を引けばもう片方の一覧が求まるので、どちらか片方の一覧があれば計算には十分です。(実際、このどちらかだけを記載している統計書が多いです)

例題)正規分布において、「平均 + 0.50×標準偏差」から「平均 + 2.50×標準偏差」=P(0.5≦Z≦2.5)の範囲に全体の何%が含まれるかを求めたい。

解法1)標準正規分布表P(0≦Z≦z)のz=0.50とz=2.50を見ると、0.1915と0.4938

P(0.5≦Z≦2.5)=P(0≦Z≦2.5)-P(0≦Z≦0.5)=0.4938-0.1915=0.3023

よって、全体の約30.23%が含まれることが分かる。

解法2)標準正規分布表P(Z≧z)のz=0.50とz=2.50を見ると、0.3085と0.0062

P(0.5≦Z≦2.5)=P(Z≧0.5)-P(Z≧2.5)=0.3085-0.0062=0.3023

よって、全体の約30.23%が含まれることが分かる。

 

このように標準正規分布表を利用すれば、「平均 ±〇×標準偏差」から「平均 ±△×標準偏差」の範囲に全体の何%が含まれるのかを簡単に求められるようになります。

 

統計学の重要論点

正規分布は、統計学の基礎的な知識であると同時に、様々な論点と密接にかかわってくる重要な分布です。

 

統計的推定や仮説検定において、「どんな場合は正規分布に従うと仮定して良く、どんな場合は正規分布に従うと考えてはいけないのか」を判断するうえでも、正規分布とその周辺論点に関する理解は欠かせません。

 

bunpu

 

「正規分布に関する重要なポイントを理解したい!」という方には、よくわかる心理統計がオススメ。

「標準誤差とは具体的に何を意味するのか?」

「推測統計では分散が n ではなく n-1 で割られているのはなぜか?」

といった、多くの統計書ではスペースの都合上省略されがちな用語の定義・数式の意味がわかりやすく解説されているので、統計学の教科書を読んでいて疑問が出てくるたびに参照すると非常に便利です。