標準偏差とは何か?その求め方や公式の意味・使い方をわかりやすく説明します

最後までお読みいただき、ありがとうございます。ツイッターやブログ等でシェアしていただけると、非常に励みになります

7975205041_7a5e4b65ff_z

当ブログでも何度も出てきたことのある、統計学の必須知識「標準偏差(SD)」。

標準偏差という数値のおかげで、膨大な量のデータに対する評価の精度は飛躍的に高まりました。

ただ、この標準偏差。その求め方が少々複雑なこともあって「何を意味する数値なのか」「何に使う数値なのか」が分かりにくいという特徴があります。

そこで今回は、この標準偏差の求め方からその公式の意味・使い方を説明していきます。

標準「誤」差についてはこちら

photo credit: Chris Potter

標準偏差とは何か?その求め方

標準偏差とは「データのばらつきの大きさ」を表わす指標で、記号 σ または s で表わされる数値です。

σ で表すときは母集団の標準偏差、s で表すときは標本の標準偏差を指すことが多いです。(母集団の例:日本人1億人全体。標本の例:アンケートに参加した3000人)

標準偏差は、「各データの値と平均の差の2乗の合計を、データの個数で割った値の正の平方根(=√)」という公式で求められます。>nの代わりにn-1で割った値との違いについて

sqm

ごちゃごちゃしていて、すこし分かりにくいですよね。

「こんなのを丸暗記しなきゃいけないの!?」と思ったあなた。大丈夫、丸暗記する必要はありません。

実は、標準偏差の公式は「なぜこのような公式になるのか」を順を追って理解していくことで、簡単に暗記することができるんです。

標準偏差を理解するために、まずは「なぜばらつきの大きさを表す数値を求めるのか?」から考えていきましょう。

平均点が60点のテストで70点を取るのはどのくらいスゴイ事なのか?

皆さんは、子供が「平均点が60点のテストで70点取ったよ!」と言ったら、それがどのくらいスゴイ事なのか分かりますか?

おそらく、多くの方が「平均を超えているならそこそこ凄いんだろうなー」といった感想を持つはずです。

しかし、もしそのテストの点数分布が「0点、5点、10点、70点、80点、80点、82点、85点、93点、95点」(平均点60点)だとしたらどうでしょう?

1heikin

「ごく一部の生徒が平均を下げただけで、普通に勉強したら80点以上取れるテストだったんだな」と思いますよね。

このようなテストでの70点はやや勉強不足。少なくともスゴイ事とは言えません。

では逆に、もしそのテストの点数分布が「50点、52点、54点、60点、60点、60点、61点、61点、70点、72点」(平均点60点)だとしたらどうでしょう?

2heikin

クラスで2位の成績ですし、点数分布から「多くの生徒が間違えた超難問のうちの1つを正解した」と推測できます。

これは間違いなくスゴイ事ですし、おもいっきり褒めてあげるべきでしょう。

このように、平均という数字は情報量が少なく、それだけでは意外と役に立たない数字なのです。

そこで役に立つのが「ばらつきの大きさを表す数値」である標準偏差。

テストを平均点と標準偏差という2つの視点からみることで、「70点を取ったこと」がどのくらいスゴイ事なのかが一気に分かりやすくなるんです。

一般的なテストの標準偏差が10~25点程度と分かっていれば、「標準偏差は何点?」と聞くことで
「1番目の例の標準偏差は約36.67点→ばらつきの大きなテストだった→平均+10点はスゴくない
「2番目の例の標準偏差は約6.68点→ばらつきの小さいテストだった→平均+10点はスゴイ
と判断できるようになります。

どうやってばらつきの大きさを数字で表現するのか?

では、どうすれば「ばらつきの大きさ」を数値化できるのでしょうか?

順を追って考えていきましょう。

(1)平均との差(偏差)の合計=0

brtk1

例えば、平均点50点のテストで90点以上を取った人が何人もいたら「ばらつきの大きなテストだったんだろうな」と予想できますよね。

このように、ばらつきの大きさは「各データの値と平均値の差がどれくらい大きいのか」で判断できます。

この「各データの値と平均値の差」のことを「偏差」と言います。
たとえば平均点が60点なら、10点の偏差は-50、80点の偏差は+20となります。

そこでまずは、「各データの値と平均値の差(偏差)」を合計してみましょう。

(0-60)+(5-60)+(10-60)+(70-60)+(80-60)+(80-60)+(82-60)+(85-60)+(93-60)+(95-60)=0

・・・どんなデータでも答えが0になってしまいますね。これでは役に立ちません。

(2)平均との差の絶対値の合計

brtk2

利用したいのは「各データの値と平均値の差の大きさ」なので、今度は大きさを表す「絶対値」を使ってみましょう。

|0-60|+|5-60|+|10-60|+|70-60|+|80-60|+|80-60|+|82-60|+|85-60|+|93-60|+|95-60|=330

何となく良さそうな感じもしますが、このままだとデータの個数が増えれば増えるほど答えも大きくなってしまいます。

ばらつきの大きさを表す以上、「50,60,70」というテストよりも「53,55,60,65,67」というテストの方が数値が小さくなる指標でなくてはなりません。

(3)平均との差の絶対値の合計をデータの個数で割る

brtk3

データの個数が答えに影響を与えないように、今度は先ほどの値を「データの個数」で割ってみましょう。

(|0-60|+|5-60|+|10-60|+|70-60|+|80-60|+|80-60|+|82-60|+|85-60|+|93-60|+|95-60|)÷10=33

だいぶ良くなってきましたが、このままだとA:「40,45,60,75,80」とB:「30,55,60,65,90」のばらつきの大きさが同じと評価されてしまいます。これはちょっと違和感がありますよね。

できれば、Bの方がより広範囲にばらついていることを表現できる指標を利用したいところです。

(4)平均との差の2乗の合計をデータの個数で割る(=分散)

brtk4

「平均との差がそこそこの値が2つあるよりも、平均との差がかなり大きい値が1つある方がばらつきが大きい」ことを表現するために、「平均との差の2乗」を利用してみましょう。

2乗した値はかならずプラスになるので、絶対値を使う必要も無くなります。

{(0-60)^2+(5-60)^2+(10-60)^2+(70-60)^2+(80-60)^2+(80-60)^2+(82-60)^2+(85-60)^2+(93-60)^2+(95-60)^2}÷10=1344.8

これで、ばらつきの大きさをキチンと表現できる指標になりました。

この「平均との差の2乗の合計をデータの個数で割った値」は分散と呼ばれ、標準偏差とともに「データのばらつきの大きさ」を表すのに利用されています。

(詳しくは下記記事を参考に)

分散の求め方と公式から、その有用性について考える
データのばらつきの大きさを表す指標としては、「分散」と「標準偏差」が挙げられます。

分散は、ばらつきの大きさを表すのに便利な数値ではあるのですが、「2乗したせいで元のデータの数値と単位がそろわない」という欠点もあります。

bunsan1

(5)平均との差の2乗の合計をデータの個数で割った値の平方根(=標準偏差)

brtk5-1

そこで、分散の平方根(=√)を利用して、元のデータの数値と単位をそろえてみましょう。

この分散の正の平方根に当たる値が、標準偏差です。

√1344.8=約36.67点

hyojun

このように、元のデータの数値と単位がそろった「データのばらつきの大きさ」の指標を求めるために、(1)各データと平均との差を(4)2乗したものの合計を(3)データの個数で割った上で(5)平方根を利用したもの。それが標準偏差なんです。

これを理解すれば、もう標準偏差の公式を丸暗記する必要もなくなります。

実践的な標準偏差の使い方:68%95%ルール

もしかしたら、先の例を読んで「(4)=分散さえ求めれば十分なんじゃない?なんでわざわざルートを使って標準偏差を利用するの?単位なんてどうでも良いじゃん」と思った方もいるかもしれません。

確かに、分散だけでも「データのばらつきの大きさ」は分かります。

しかし、平方根(ルート)を利用して単位を元のデータの数値とそろえると非常に便利なことがあるんです。

それが、標準偏差の「68%95%ルール」。

6895

(画像引用元:正規分布-wikipedia)

もし、データの確率分布が正規分布と呼ばれる上図のような形をしていた場合

「平均-標準偏差」~「平均+標準偏差」内に、あるデータが含まれる確率が約68%
「平均-2×標準偏差」~「平均+2×標準偏差」内に、あるデータが含まれる確率が約95%

ということが分かっています。

正規分布とは何なのか?その基本的な性質と理解するコツを書いていきます
「サイコロを何回も投げたときの出目の合計の分布」 「全国の中学生の男女別の身長分布」

あるテストの点数分布が正規分布に近似できて、平均点50点・標準偏差10点だったのなら、

40点から60点の間に受験者の約68%が存在して、
30点から70点の間に受験者の約95%が存在している

ということです。

逆に言えば、40点以下に約16%存在し、60点以上にも約16%存在するということでもあります。

この標準偏差の「68%95%ルール」、知っているとものすごく便利なんですよ。

なぜなら、データ数が1000を超えた分布は、正規分布に近い分布になるケースが多いことが分かっているから。

つまり、この標準偏差の「68%95%ルール」は身近にある様々なデータに活用できるのです。

「どの塾に行った方が良いか」や「電車とバスのどちらを使うべきか」、「どう勉強すれば最も合格率が高いか」さえも計算できる可能性を秘めている。それが、標準偏差の強みです。

標準偏差

標準偏差と「68%95%ルール」さえ理解しておけば、データ分析から出来ることの範囲はグッと広くなっていきますよ。

もちろん全てが計算通りに行くとは限らないので、平均と標準偏差に頼りすぎるのは禁物ですが、データ分析において標準偏差が使い道の多い便利な数値であることは間違いありません。

偏差値=「平均点50標準偏差10になるよう調整した時の点数」

標準偏差が活躍する身近な例だと「偏差値」が挙げられます。

偏差値とは何かをおさらい!意味・求め方・正規分布との関係性のまとめ
中学受験・高校受験・大学受験。 受験のたびに、否応なしに「客観的な今の自分の位置」を

偏差値は、平均点が50点・標準偏差が10点になるように調整した時のあなたのテストの点数を表しています。

この偏差値においても、先の68%95%ルールは利用できます。

偏差値60以上の人は、受験者全体の上位約16%に相当

偏差値70以上の人は、受験者全体の上位約2.275%に相当

体感的な偏差値の評価にかなり近いのではないでしょうか。

「平均60点のテストで70点取ったよ!」と言われてもどのくらいスゴイのかは分かりませんが、「偏差値60取ったよ!」ならスゴさが分かりますよね。

偏差値を利用したことのある方なら、標準偏差の有用性の高さをすでに体感しているはずです。

標準偏差のまとめ

①標準偏差とは「データのばらつきの大きさ」を表わす指標で、各データの値と平均の差の2乗の合計をデータの個数で割った値の正の平方根として求められる

②平均という数字は情報量が少なく、それだけでは意外と役に立たないので、標準偏差と組み合わせて使う必要がある

③標準偏差の求め方の公式は、丸暗記するよりも順を追って理解していった方が効果的

④正規分布において、標準偏差には68%95%ルールが存在する。これがすごく便利

⑤偏差値とは、平均が50点・標準偏差が10点になるように調整したときの点数。正規分布を仮定すると、偏差値60は上位約16%に相当する

標準偏差は、世の中にあふれる数字の意味を分析し、誤った判断を回避できる便利なツールでもあります。

逆に言えば、標準偏差を知らないと、知らず知らずのうちに損な選択をしているかもしれません。

パッと見は難しそうな指標ではありますが、一度理解してしまえばこれほど便利な数値もそうないので、ぜひ活用してください。

「できる限り数式を使わずに標準偏差の使い方を理解したい」という方には、完全独習 統計学入門 という入門書がかなりおすすめ。

図が豊富なうえ数式が少なめなので、初学者でもすぐ読み切れるでしょう。

この記事が良かったら、こちらの記事もどうぞ

相関係数とは?その公式から使い道をわかりやすく解説!【共分散から相関係数を求めよう】
世の中には、様々な『傾向』があります。 「年齢が高いほうが、年収も高い傾向がある