統計学

相関関係と因果関係の違いが一発でわかる具体例5選

8157634330_b5680b35f6_z

数字は嘘をつかなくとも、データを言葉に翻訳するときに嘘に変わることがあります。

 

その原因の1つとして挙げられるのが、相関関係と因果関係を混同してしまうことです。

 

データに騙されて損な選択をしないためにも、この2つの違いは実例を交えてしっかりとおさえておく必要があります。

 

今回は、意外と見落としてしまいがちな「データの嘘」、相関関係と因果関係の違いを具体例を見ながら解説していきます。

photo credit:fdecomite

 


スポンサーリンク

相関と因果の関係

相関関係とは「一方の値の大きさと、もう一方の値の大きさに関連性がある」関係のこと。

 

例えば「Aが多いとき、Bも多い傾向がある」という場合、「AとBは正の相関関係がある」と言います。

※逆に「Aが多いとき、Bは少ない傾向がある」という場合は「AとBは負の相関関係がある」と言います。

相関の強さは、相関係数で表されます。

 

一方、因果関係とは「原因と結果」のつながりがある関係のこと。

「Aが原因となってBという結果が起きる」関係と言えば分かりやすいでしょうか。

 

soukan

 

AとBに相関関係があっても、A→Bという因果関係があるとは限りません。

 

A←Bという「逆の因果関係」がある場合もありますし、Cという「共通の要因」があるケースも存在します。また、「単なる偶然」で相関関係が出てくることもあるんです。

 

実際に「相関関係はあるがA→Bという因果関係はない」5つの具体例を通じて、相関関係と因果関係の違いを見ていきましょう。

 

①交番の数が多い地域ほど、犯罪件数が多い

By: merec0

地域に交番が多いと、それだけ犯罪への抑止力となるので、犯罪件数は少なくなるはずです。

 

しかし、実際に調べてみると「交番の数が多い地域ほど、犯罪件数も多い」という相関関係が見つかることもあるんです。

 

この場合、「交番が多い」から「犯罪件数が多い」という因果関係があると言えるでしょうか?

答えはもちろん No です。

 

このケースでは「逆の因果関係(A←B)」、つまり「犯罪件数が多い地域」だから「交番が多く設置された」可能性が真っ先に考えられます。

 

相関関係があるからといって、交番の数を減らすと犯罪が増えてしまうのは容易に想像がつきますよね。

 

②育毛剤を使っている人ほど、10年後にハゲる

薄毛にならないように育毛剤を使っている人が、こんな記事を見かけたとします。

・育毛剤は逆効果!?育毛剤を使っている人ほど10年後ハゲる可能性が1.5倍あると判明!

 

中には「なんだって!騙された!」と驚いてしまう人もいるかもしれません。

 

しかしこういう時は、一度冷静になって主張の根拠となるデータをよく読むことが重要です。

 

「アンケートで育毛剤を使っている人100人と使っていない人100人を集め、それぞれを10年間追跡調査したところ、使っていた人は45%が薄毛になっていたのに対し、使っていなかった人は30%だけが薄毛になった」

 

この調査では、すでに育毛剤を使っている100人が調査対象となっています。

 

では、この「すでに育毛剤を使っている100人」というのはどういった方でしょうか?

 

髪の問題で全く悩んでいない方なら、育毛剤を使うとは考えにくいですよね。

つまり、この100人は「すでに薄毛の兆候が見えている」か「親が薄毛だから、早い段階から予防しようとしている」可能性が高いということです。

 

必然的に、そうでない100人よりも10年後に薄毛になる確率も高くなってくると考えられます。

 

このケースで真っ先に考えられるのは「共通の要因(C→A C→B)」、すなわち遺伝などの第三の要素が原因になっているということです。

 

「育毛剤を使っている人」ほど「10年後薄毛になる可能性が高い」という相関関係がある

⇒しかし「A:育毛剤を使った」から「B:薄毛になった」という因果関係があるとは言えない

⇒「C:親が薄毛」だから「A:育毛剤を使った」という因果関係と、「C:親が薄毛」だから「B:遺伝で薄毛になった」という因果関係によってAとBに相関関係ができたと考えられる

 

このように2つの事象に因果関係がないのに、見えない要因によって因果関係があるかのように推測されてしまうことを擬似相関と言います。

 

③猫が顔を洗うと、雨が降る

「猫が顔を洗うと雨が降る」という言い伝えも、相関関係で説明することができます。

 

具体的には、「雨が降る前は湿気が多くなりやすい」→「センサーの働きをしているひげが敏感に反応し、その感度が落ちないようにひげを拭う可能性が高くなる」のが原因。

 

そのため、「猫が顔を洗っているのを見た後で、雨が降る」という形になるんです。

 

実質的には、「後で雨が降る」から「猫は顔を洗う」の方が正しいと言えるでしょう。

 

この話のように「共通の要因(C→A C→B)」のせいで時系列が前後したため、実質的に「逆の因果関係(A←B)」にあるのが分かりにくくなっているケースは少なくありません。

 

「猫が顔を洗った」から「雨が降った」と言う人はいないと思いますが、だからこそ「相関関係はあっても因果関係がないことの例え」として使いやすい話です。

 

④インターネットが普及するにつれ、地球温暖化が進行

相関関係があったとしても、そこに因果関係も「共通の要因」もないケースもあります。

 

つまり、「単なる偶然」ということです。

 

例えば、ここ数十年でインターネットの普及率は飛躍的に高まりましたし、地球温暖化も進んでいます。

だからと言って「ネットが普及した」から「温暖化が進んだ」という因果関係があるとは考えにくいですよね。

 

このように、たまたま相関関係が出てくることも少なくないんです。

 

相関関係には、有意水準というものがあります。

例えば有意水準5%で有意というケースでは「実際には偶然に過ぎない場合に、誤って『偶然ではない』という結論を出してしまう確率」が5%あるということです。

(※結論が誤っている確率が5%という意味ではないことに注意)

 

統計に「絶対」はありません。

1つの統計結果に全幅の信頼を置くのはやめておきましょう。

 

⑤趣味が盆栽という人ほど、お金持ちである

ネットニュースでは、「〇〇な人ほど高収入になる」という記事をよく見かけます。

 

しかし、そういった記事は「相関関係と因果関係を混同させるような表現を使う」ことで商品の購入を誘導しているケースが多かったりします。

 

例えば「趣味が盆栽という人ほど、お金持ちの傾向がある」という記事の場合、真っ先に疑うべきは「年齢」という「共通の要因(C→A C→B)」です。

 

盆栽が趣味という人は、高齢な方に多いもの。そして、年齢が高ければそれだけ蓄えも多いはず。

このように、「年齢と相関関係のあること」は「収入や貯蓄とも相関関係がある」ケースが多いのです。

 

また、「お金を持っている」から「盆栽を楽しむ余裕がある」=「逆の因果関係(A←B)」の可能性も考えられます。

 

さらに言えば、その統計データを取ったのが「その商品を販売している会社」であれば、「何度もデータを取って、たまたま高い標本相関係数が出た時に記事にした」=「単なる偶然」の可能性すらあるんです。

 

Tooda Yuuto
Tooda Yuuto
特定の商品購入につながる記事の場合は、根拠となるデータをよく調べておく必要がありますね。

 

まとめと対策

①相関関係とは「一方の値の大きさと、もう一方の値の大きさに関連性がある」関係のことで、因果関係とは「原因と結果」の繋がりがある関係のこと

②AとBに相関関係があったとしても、A→Bという因果関係があるとは限らない。「逆の因果関係」・「共通の要因」・「単なる偶然」というパターンもあるので早合点は禁物

③特定の商品購入につながる記事の場合は、それら3つが複合されているケースも多い

 

soukan

 

対策(1):「A→B」と言われた時は、「A←B」の可能性も考えてみる

例)暴力表現のあるゲームをする子供は、非行に走る可能性が高い。こんなゲームは規制すべきだ

⇒非行に走りやすいタイプの子供が、暴力表現のあるゲームを好む可能性が高いのでは?

⇒暴力表現のあるゲームは、むしろストレスを発散して非行の予防になっている可能性も?

対策(2):「A→B」と言われた時は、共通する要因「C」の存在を考えてみる

・「年齢」という要因が考えられる時は、「年齢別に見た時の統計データ」を調べる

・集計期間に差がある時は、「季節的な要因」がないか考えてみる

偏相関係数を求めれば、第3の変数「C」による影響を除いたAとBの相関関係を調べることができる

対策(3):過去の実績データに基づく相関関係を因果関係だと安易に考えない

・過去の実績データでは、集計の仕方などで偏りが起きやすい

ランダム化比較実験であれば、因果関係を証明しやすい

⇒例えば具体例②の場合、「実験に参加させた200人をランダムに2つのグループに分け、片方のグループには育毛剤を使わせ、もう片方のグループには使わせずに数年間追跡調査する」

⇒その結果、薄毛になる割合に明確な差があれば、因果関係があると考えられる