共分散の求め方と解釈。2変数データや2つの確率変数の関係性

共分散とは、2つの変数の関係を表す値で「平均値からの偏差の積の平均」として求められる値です。

 

共分散は「身長と体重」のような2変数データの関係性を表したり、「事象Xが起こるときに事象Yも起こる傾向があるか」のように2つの確率変数の関係性を表すのに使います。

 

n個の2変数データの共分散

n個のデータ(x1,y1),(x2,y2),…,(xn,yn)について、以下の式で表される値 sxy を共分散と言います。

 

 

以下の4人(A,B,C,D)の数学と国語の点数について、「数学と国語の点数の共分散」を求めてみましょう。

 

 

step①xとyの平均を求める

まず、xの平均とyの平均を求めます。

 

数学(x)の平均点を青い線、国語(y)の平均点を赤い線で表しています。

 

step②各データのxの偏差とyの偏差の積を求める

次に、各データの「xの偏差」と「yの偏差」をそれぞれ求めます。

 

偏差とは、各データの値から平均値を引いた値です。

 

今回はxの平均が60なので各xiから60を引き、yの平均が50なので各yiから50を引くと…

偏差が求まります。

 

すべての偏差が求まったら、「xの偏差」と「yの偏差」をそれぞれかけ算して積を求めましょう。

 

 

偏差の積は、上図のように「xの平均との距離」×「yの平均との距離」の面積をイメージすると理解しやすいです。

Tooda Yuuto
平均から見て「右上と左下がプラス」「左上と右下がマイナス」になる点に注意

 

step③積の合計をデータの総数で割る

最後に、求めた積をすべて足した後でデータの総数で割ると、共分散が求まります。

 

 

2つの確率変数の共分散

次は、2つの確率変数 X と Y の共分散について。

「n個のデータ」が「確率分布」、「平均」が「期待値」に変わっただけで、考え方は同じです。

 

Tooda Yuuto
「確率変数の平均」には期待値という名前がありますが、「確率変数の共分散」には特別な名前はついておらず、そのまま共分散と呼ばれています。

 

2つの確率変数 X と Y の共分散はCov[X,Y]またはσXYと表記され、以下の式で与えられます。

 

 

共分散を求めるときは、次の公式を使うと計算が楽になります。

 

例題)サイコロを1回だけ振る。確率変数Xを「5の目が出た回数+1」、確率変数Yを「6の目が出た回数+1」とする。このとき、XとYの共分散は?

P(X=1,Y=1)は「5も6も出ない確率」なので、4/6

P(X=2,Y=1)は「5が出て、6が出ない確率」なので、1/6

P(X=1,Y=2)は「6が出て、5が出ない確率」なので、1/6

P(X=2,Y=2)は「サイコロを1回しか振っていないのに5も6も出る」ことはありえないので、0 

 

よって、XとYの同時確率分布は以下の通りになります。

 

2つの確率変数XとYの共分散が -1/36 と求まりました。

 

共分散の解釈と注意点

共分散が正の値(プラス)なら「xが大きいとき、yも大きい傾向がある」

共分散が負の値(マイナス)なら「xが大きいとき、yは小さい傾向がある」

ことを意味します。

 

4人の点数の例では「(今回のテストでは)数学の点数が高い人ほど国語の点数は低い傾向がある」

サイコロの例では「5の目を出した回数が多いほど、6の目を出した回数は少ない傾向がある」

と解釈できます。

 

注意点としては、共分散には「2つの変数の関係の強さ」と「単位」の両方の影響を受けてしまう欠点があること。

Tooda Yuuto
共分散の値が大きいとき、それが「2つの変数の関係が強いから」なのか「単位の問題」なのか区別がつかない、という問題点があるんです。

 

そのため、共分散の値の意味をキチンと解釈したい場合には「共分散を各変数の標準偏差の積で割る」ことにより、単位の影響を取り除いた相関係数を使うのが一般的です。

 

SPONSORED LINK

 

ツイッターやブログ等でシェアしていただけると、非常に励みになります。

Tooda Yuuto
大阪大学を卒業後、数字とにらめっこする日々を送る社会人。当たり前なようでアタリマエじゃないことを日々探しています。