カイ二乗分布とは何か?どのくらい自由に動くものなのかを確率的に分析する知恵

 

統計学の役割の1つに、「それって、たまたまじゃないの?」という疑問に対して「その現象が、どれだけ偶然とは考えにくい現象なのか」を論理的に説明する、というものがあります。

(詳しくは以下の記事で解説)

確率変数・確率分布とは何なのか。リスクリターン判断の基礎とその有用性について

2016.12.01

 

例えば、「サイコロを10回投げた結果、出た目の標本平均が 2 になった」としましょう。

偏りのないサイコロでも、何回か「2以下」の目が出ること自体は珍しくないので、この結果にも「たまたまじゃないの?」という感想を持つ人は少なくないはずです。

 

しかし、「偏りのないサイコロを10回投げた結果、出た目の標本平均が2以下になる確率」を計算してみると、実は約0.289%しかありません。

 

これを踏まえると、「今回たまたま標本平均が小さな値になった」と考えるよりも「偏りのあるサイコロだ」と考えることに一定の合理性があることが分かります。

 

このように、「仮説が正しいとしたら、今回得られた標本平均はどれだけ珍しいものなのか?」を調べることで「たまたまじゃないの?」という疑問を払拭できるのが、統計学の強みです。

 

ただ、標本平均だけでは、例えば「サイコロを120回振ったら1と6ばかり出た」のに対して、「偶然とは考えにくい結果だ」という結論を下せない、という欠点もあります。

 

 

これは、明らかに直観に反しますよね。

 

そこで役に立ってくるのが、「理論値からの食い違いの大きさ」について確率的に表した分布。

それが、カイ二乗分布です。

 

今回は、このカイ二乗分布の基本的な性質を解説します。

photo credit:Gonzalo Baeza

カイ二乗分布の意味・表記法・確率密度関数を知ろう

カイ二乗分布( \(\chi^2\) 分布)とは、平均が0・分散が1の正規分布\(N(0,1)\)に従う確率変数 \(Z\) を二乗した値である \(Z^2\) をいくつか足し合わせた変数が従う確率分布です。

※\(N(0,1)\)のことを特に標準正規分布と言います。

 

より正確に言うと、「標準正規分布\(N(0,1)\)に従う互いに独立な \(n\) 個の確率変数 \(Z_1,Z_2,…,Z_n\) をそれぞれ二乗した値の合計 \(W\) が従う確率分布」のことを、自由度 \(n\) のカイ二乗分布と呼び、\(W\sim\chi^2(n)\) と表記されます。

 

自由度 \(n\) のカイ二乗分布の確率密度関数は、以下の式で表されます。

 

正規分布からさらに難解な数式になっていますが、あまり気にしなくて良いです。

 

自由度1・2・3のグラフと考え方

標準正規分布と自由度 1・2・3 のカイ二乗分布をそれぞれグラフで表すと、こんな感じ。

 

 

「こういった形の分布をカイ二乗分布と言って、その正確な形を数式で表そうとしたらさっきの確率密度関数になるんだな」くらいに理解しておけば大丈夫。

 

ポイントとしては、「自由度 \(n\) のカイ二乗分布という存在がどこかにある」というよりは、以下の流れで考えたほうが理解しやすいと思います。

 

①食い違いの大きさを確率的に考えようとしたら毎回似たような確率分布の話になる

②そのたびに毎回「\(N(0,1)\)に従う互いに独立な○個の~」と表現するのは手間

③手間を省くために、「自由度○のカイ二乗分布」という名前をつけて一般化した

 

母平均との差を母標準偏差で割った値の2乗の合計

ここからは、カイ二乗分布と「食い違いの大きさ」について解説していきます。

 

まず、母平均 \(μ\) 母分散 \(σ^2\) (つまり母標準偏差 \(σ\) )の正規分布に従う \(n\) 個の確率変数 \(X_i\ (i=1,2,…,n)\) を考えます。

 

正規分布の記事で触れた通り、「平均との差は標準偏差何個分か」を表した値である \(n\) 個の \(Z_{i}=(X_{i}-μ)/σ\) は、それぞれ約68.3%の確率で「-1 ~ +1」の値をとり、約95.5%の確率で「-2 ~ +2」の値をとります。

 

つまり、各 \(Z_{i}\) を二乗した値 \(Z_{i}^2\) は、基本的に「0以上1以下」の値をとり、たまに「1以上4以下」の値をとり、ごく稀に「4以上」の値をとることが分かります。

\(Z_{i}^2\) の総和が大きいのは、「母平均からすごく離れた値がある」か「母平均から離れた値が多い」かその両方、つまり「理論値からの食い違いが大きい」ことを意味します。

こう考えると、\(n\) 個の \(Z^{2}_{i}\) を合計した値(総和)は

「\(n=1\) なら大抵4以下、\(n=2\) なら大抵6以下、\(n=3\) なら大抵1以上8以下の値になりそう」という予測が立ちますよね。

 

この「 \(n\) 個の \(Z^{2}_{i}\) を合計した値」の確率分布こそが、自由度 \(n\) のカイ二乗分布なんです。

 

こう考えると、カイ二乗分布が「食い違いの大きさを確率的に表したもの」というのもイメージしやすくなったのではないでしょうか。

普通はこのくらいは自由に動くはず

カイ二乗分布は、ぼく達が経験則的に持っている「こういう事をすれば、普通は理論値からこのくらいは食い違った結果になるもの」という感覚を論理的に説明するのに役立ちます。

 

例えば、サイコロを120回投げたら、「すべての目がちょうど20回ずつ出る」という食い違いゼロの結果になることも珍しいですし、冒頭のように「1と6ばかりが出る」という食い違いの大きな結果になることも珍しいですよね。

 

そのため、「この仮説が正しければ、こんな食い違い方をする確率はこんなにも低い。よって、この仮説は間違っていると考えるのが自然だ」という主張をするのに便利な分布となっているんです。(この考え方については下記記事で詳しく解説しています)

カイ二乗検定・適合度検定の計算法を例題から解説。確率の偏りに惑わされないための統計的検定とは

2017.02.19

 

いかがだったでしょうか。

この記事を通じて「カイ二乗分布のイメージと有用性が理解できた!」と思っていただけたら嬉しいです。

 

カイ二乗分布をキチンと勉強したい!と思った方には、完全独習 統計学入門 という入門書が非常に分かりやすくてオススメです。
スポンサーリンク

ツイッターやブログ等でシェアしていただけると、非常に励みになります。

Tooda Yuuto
大阪大学を卒業後、数字とにらめっこする日々を送る社会人。当たり前なようでアタリマエじゃないことを日々探しています。