相関係数とは?その公式から使い道をわかりやすく解説!【共分散から相関係数を求めよう】

8808985531_91ea681b37_z

世の中には、様々な『傾向』があります。

 

「年齢が高いほうが、年収も高い傾向がある」

「親の身長が高いほうが、子供の身長も高い傾向がある」

「勉強時間が多いほうが、学力も高い傾向がある」

 

これらは飽くまでも『傾向』であって、例えば「45才の人の年収が絶対に25才の人の年収よりも高い」という訳ではありません。

年齢も親の身長も勉強時間も、ある程度の目安にしかならないんです。

 

ただ、皆さんはこういった話を聞いたとき、「ある程度って具体的にどの程度なんだろう?」と疑問に思ったことはありませんか?

 

実はこの『ある程度』。具体的に数値化することができるんです。

この「関連性の度合を数値化したもの」。それが相関係数です。

 

今回は、そんな相関係数の求め方・公式から具体的な使い道を簡単に解説していきます。

photo credit:Lauro Roger McAllister

相関係数とは?その公式

相関係数とは、2つのデータ群の間の直線的な関係性の強さを-1から+1の間の値で表した数のこと。記号では ρ や r で表される値です。

ρ で表す時は母集団の相関係数、r で表す時は標本の相関係数を指すことが多いです。

 

相関係数は「xとyの共分散を、xの標準偏差とyの標準偏差の積で割った値」という公式で求められます。

標準偏差とは何か? 

>共分散とは何か?

correlations1

 

xとyの共分散は「xの偏差」と「yの偏差」の積の平均(期待値)

xの標準偏差は「xの偏差」の2乗の平均(期待値)の正の平方根

ですから、標本の相関係数を数式で表すと以下のようになります。

correlations2
※ xの偏差:「xの各要素の値とxの平均の差」のこと。
仮にx=(4,5,9)ならxの平均は6なので、x=4の偏差は-2、x=5の偏差は-1、x=9の偏差は+3となる。

 

パッと見は難しい数式に見えるかもしれませんが、実際に何度も計算してみると意外と簡単なことが分かってくるので、物怖じすることなく果敢に挑戦してみましょう!

 

共分散と標準偏差から相関係数を求めてみよう

ここからは、実際に標本の相関係数を求めてみましょう。

ある日、Aさん,Bくん,Cくん,Dさんの4人は100マス計算のテストを受けた。
下の表は、4人の「テストの点数・テストを終えるまでにかかった所要時間・前日の勉強時間身長・答案用紙の空欄の数」を表している。

 

test-table

 

相関係数の公式は、「共分散」を「2つの標準偏差の積」で割った値でしたよね。

そこでまずは、共分散から求めてみましょう。

 

xとyの共分散は、「xの偏差」と「yの偏差」の積の平均なので

covar1

このように計算すると

点数(点)と所要時間(秒)の共分散が-12.5(点×秒)

点数(点)と勉強時間(分)の共分散が100(点×分)

点数(点)と身長(cm)の共分散が48.75(点×cm)

点数(点)と空欄の数(個)の共分散が-5(点×個)

であることが求まります。

※ 共分散の数字の大きさは「2つのデータ群の直線的な関係性の強さ」だけでなく「単位」にも大きく左右されるので、共分散が100(点×分)と分かっただけでは何も判断できません。そこで、共分散から「単位」による影響を取り除くために、それぞれのデータの「ばらつきの大きさ」を表す標準偏差の積で割った値が相関係数なんです。

 

次に、それぞれのデータの標準偏差を求めます。

xの標準偏差は、「xの偏差」の2乗の平均の正の平方根なので

std

このように計算すると

点数の標準偏差が√62.5≒7.905(点)

所要時間の標準偏差が√525≒22.912(秒)

勉強時間の標準偏差が√164≒12.806(分)

身長の標準偏差が√114.5≒10.700(cm)

空欄の数の標準偏差が√5≒2.236(個)

であることが求まります。

 

最後に、先ほどの「共分散」を対応する「2つの標準偏差の積」で割ると…

correl1

 

見事、相関係数が求まりました。

 

点数と空欄の数などの相関係数の式はこちら

 

correl4

 

相関係数は一般的に、+1に近ければ近いほど「強い正の相関がある」、-1に近ければ近いほど「強い負の相関がある」、0に近ければ近いほど「ほとんど相関がない」と評価されます。

 

xとyには正の相関がある…xが大きいほどyも大きい傾向がある

xとyには負の相関がある…xが大きいほどyは小さい傾向がある

xとyは無相関…xの大小はyの大小と(直線的な)関係がない

 

例えば、身長と体重の相関係数が+0.35と求まった場合は「身長と体重には弱い正の相関がある」=「身長が高いほど体重も重い傾向があるが、その傾向は弱めである」と評価できます。

 

相関係数はこのように、2つのデータ群の直線的な関係性の強さを客観的な数値として判断することができる便利な指標なんです。

エクセルのCORREL関数で確認してみよう

共分散・標準偏差・相関係数は、計算量が多くなりやすいので、それだけケアレスミスもよく起こります。

 

そのため、これらを求める際には、EXCELを利用してチェックするのがオススメです。

correl-excel

標準偏差はSTDEV.P関数

共分散はCOVAR関数

相関係数はCORREL関数

を使います。

3つの注意点

相関係数は2つのデータ群の関連性を数値化するのに便利な指標ではありますが、万能というわけではなく、使用するうえではいくつか注意点があります。

①少ないデータからの標本相関係数はあまり意味をなさない

今回は標本相関係数の求め方を理解するために、計算が比較的簡単な4人という少ないデータで相関係数を計算しました。

ただ、実務においてはこのような「少ないデータから得られた標本相関係数」はあまり意味を成さないということを覚えておきましょう。

By: Roland

今回のように、たった4人のデータから求まった-0.2828からは「この4人のデータ内に限って言えば、テストの点数と空欄の数には弱い負の相関があるように見える」と言えるだけで、それを一般化して「テストの点数と空欄の数には弱い負の相関があるんだ!」と言うのは早計です。

 

母集団の相関係数が0であっても、標本の選ばれ方から偶然「今回のような標本相関係数」が得られた可能性があるからです。

 

実務において相関関係の度合いを判断するときは、十分な量(n=100以上)のデータから算出した相関係数を使って判断するようにしましょう。

一般的には、相関係数 r とデータの数 n から算出した「p値」が0.05より小さい時に「有意な相関がある」と言います。

②相関関係があるからといって因果関係があるとは限らない

相関係数についてよくある誤解が、相関関係と因果関係の混同です。

これについては、相関関係と因果関係の記事でくわしく解説しています。

相関関係と因果関係の違いが一発でわかる具体例5選

2016.04.29

 

今回のケースでは、「テストの点数と身長の相関関係」がこれに当たります。

×:身長が高いからテストの点数が良くなった

○:学年が上の子ほど身長が高い+学年が上の子ほどテストの点数が良い

「見えない第三の要素」が相関関係の原因だったというケースは多いので、注意しておきましょう。

③外れ値に弱い

「共分散」を「2つの標準偏差の積」で割った値で求められる相関係数は、データが正規分布を始めとした特定の分布に従うことを前提としています。

 

裏を返せば、こういった分布に従わず「外れ値」が出てくるようなデータから求めた相関係数は、「外れ値」の影響を大きく受けてしまい、正確な測定ができなくなってしまうという弱点があるんです。

 

「外れ値」が出てくるようなデータでは、ノンパラメトリック法(スピアマンの順位相関係数など)を利用したほうが正確な測定ができるようになります。

スポンサーリンク

ツイッターやブログ等でシェアしていただけると、非常に励みになります。

Tooda Yuuto
大阪大学を卒業後、数字とにらめっこする日々を送る社会人。当たり前なようでアタリマエじゃないことを日々探しています。