勘違いしやすい統計用語の定義。標本の大きさと標本数・母数・不偏標準偏差など

統計学は、日常ではあまり意識されない細かな違いをキチンと分けて考えることで、見落としてしまいがちな「意外と大きな差」を見つけ出すことができます。

 

だからこそ、統計学を経営判断や意思決定にとりいれると見落としていた改善点が見つかって、リターンを増やせたり成功率が上がるという強みがあるんです。

 

ただ、細かな違いをキチンと分けて考えるという事は、それだけ「パッと見は似ているのに指している対象が違う言葉」が存在するということでもあります。

 

そこで今回は、パッと見では勘違いしやすい「統計用語の違い」について書いていこうかと思います。

photo credit:sarah cordingley

サンプルサイズとサンプル数

sample-size2

 

サンプルサイズ(標本の大きさ)とは、「1つの標本に含まれる要素の数」のことを指します。標本の要素数とも言いますね。

 

一方でサンプル数(標本数)とは、「標本となる集合がいくつあるか」を指します。

 

統計学においてはサンプル(標本)とはそれ自体に「集合」という意味が含まれている用語なので、「グループの大きさ」と「グループの数」の対応関係と同じと考えると、分かりやすいかと思います。

 

日常用語でサンプルというと物単体を指すことも少なくないだけに、特に勘違いしやすい用語なのではないでしょうか。

 

「標本の大きさ(サンプルサイズ:sample size)と標本数」について:神戸大学

サンプル数再考:独立行政法人労働政策研究・研修機構

標本分布と標本におけるデータの度数分布

「標本分布」も、その名称から「標本におけるデータの度数分布」と混同してしまいやすいので注意が必要です。

 

標本分布とは、「標本統計量の確率分布」を指します。

一方、標本におけるデータの度数分布とは、「実際に得られた1つの標本の中の各要素から作成した分布」を指します。

 

hyouhon-bunpu

 

標本分布は、数理的に導かれた理論的な分布であって、実際にデータとして得られるわけではありません。

 

『まず母集団が○という性質を持っていると仮定すると、この標本統計量の標本分布には△という性質があることになる。なら99%の確率で☆という結果が起きるはずだが、今回得られた標本の度数分布にはそんな結果は見受けられない。つまり母集団は○という性質は持っていないと考えるべきだろう』といった使い方をします。

 

詳しくは、山田剛史教授,村井潤一郎教授著『よくわかる心理統計』で分かりやすくまとめられています。

母集団サイズと母数

bosuu-parameter

母集団サイズ(母集団の大きさ)は、「母集団に含まれる要素の数」のことを指します。母集団の要素数とも言います。

 

一方、母数とは「パラメータ」のことを指し、母集団を特徴付ける定数を意味します。

例えば母平均 μ ・母分散 σ・母標準偏差 σ ・母比率 π などがこれに当たります。

 

母集団に含まれる要素の数という意味で「母数」を使ってしまうと大きな誤解を招くので、「母集団の大きさ」か「分母」と表現した方が良いでしょう。

標本分散と不偏分散

偏差平方和を n で割った分散 Sは不偏でなく、偏差平方和を n-1で割った分散 Uは不偏性を持ちます。(不偏推定量:その期待値が常に母数と等しくなる推定量のこと)

 

ただ、この2つの分散の名称については、統計書の間でも定義が異なっていて

A:不偏でない標本の分散 Sが「標本分散」で、その平方根 S が「標本標準偏差」。不偏性を持つ標本の分散 Uが「不偏分散」で、その平方根 U が「不偏分散による標準偏差」

B:不偏性を持つ標本の分散 U2 が「標本分散」で、その平方根 U が「標本標準偏差」。不偏でない標本の分散は記載しないか「(不偏でない)標本分散」と書く

という2パターンの定義があり、勘違いしやすくなっています。

(ぼく自身、学生時代にここでつまづいた経験があります)

 

アタリマエ!」では、

①不偏性を持つ分散を標本分散とすると、「不偏でない標本の分散」の名称が無くなる

②初学者は『分散は n で割るのに標本分散は n-1 で割る』とすると戸惑いやすい

③『標本分散は n で割り、不偏分散は n-1 で割る』とすれば「不偏性とは何だろう→だから n-1 で割るのか!」と理解を進めやすい

といった点から A の定義で記載しています。

 

 

東京大学の南風原朝和教授の書籍でも

分布の記述的指標としてはN個の項の和をN-1で割るのは不自然なこと、常に母集団に関する推測が必要(あるいは可能)なわけではないこと、そして母集団分散の推定においてもすべての側面で不偏分散のほうがすぐれているわけではないこと等から、本書では特にことわらない限り、(2.12)式で定義される分散s2を使用することとします。

引用元:心理統計学の基礎―統合的理解のために(有斐閣アルマ)

とありますし、Aの定義のほうが自然な定義に感じます。※(2.12)式は、不偏でない標本の分散

 

この2つの値の性質の違いは、標本分散と不偏分散の違いの記事でくわしく解説しているので、興味のある方はぜひ。

不偏分散平方根と不偏標準偏差

unbiased estimator

不偏標準偏差という言葉も

C:不偏分散による標準偏差(不偏分散平方根)を意味する

D:母標準偏差の不偏推定量を意味する

という2パターンの定義があります。

 

しかし、不偏分散は「母分散の不偏推定量」ですが、不偏分散平方根は「母標準偏差の不偏推定量」ではない[※]ので、文字との整合性を考えて、アタリマエ!では不偏標準偏差は母標準偏差の不偏推定量 D で定義しています。

[※]イメージとしては、(1,4,9,16)の期待値は「7.5」でも、その平方根の(1,2,3,4)の期待値は「2.5」であって「7.5の平方根」ではない事を考えると分かりやすいです。

 

参考文献

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎 p100,108,109

こういった勘違いしやすい用語はまだまだあると思います。今は大丈夫でも、次に勘違いしてしまうのは僕や皆さんかもしれません。そうならないためにも色んな統計書を通じて勉強していきたいですね。

もし「これとこれも勘違いしやすいのでは?」というのがあれば、お問い合わせやツイッターからご指摘いただけると嬉しいです!

スポンサーリンク

ツイッターやブログ等でシェアしていただけると、非常に励みになります。

Tooda Yuuto
大阪大学を卒業後、数字とにらめっこする日々を送る社会人。当たり前なようでアタリマエじゃないことを日々探しています。