回帰分析・最小二乗法の公式の使い方を分かりやすく解説。公式から分かる回帰直線の性質とは?

 

回帰分析とは、説明変数 \(x\) によって目的変数 \(y\) の変動を \(y=f(x)\) の形でどの程度説明できるのかを分析する手法です。

 

例えば賃貸マンションでは、部屋が広ければ広いほど家賃が高くなる傾向がありますよね。

 

つまり、部屋の広さを \(x\) 、家賃を \(y\) と考えた場合

2つの変数の間には \(y=ax+b \) という直線関係があると考えられる訳です。

Tooda Yuuto
説明変数 \(x\) は独立変数・予測変数とも呼ばれています。

目的変数 \(y\) は従属変数・応答変数とも呼ばれています。

 

ただ、現実には「同じ部屋の広さなのに家賃に差がある」など、部屋の広さだけでは家賃の変動を説明しきれない「誤差」が出てくるものです。

 

今回は、この「誤差の推定値(残差)」の2乗和が最小になる直線を計算する、回帰分析の代表的手法「最小二乗法」について軽く説明していきます。

 

単回帰分析における最小二乗法の公式

最小二乗法による回帰直線(単回帰モデル)は、\(n\)個の2変数データ \((x_i,y_i)(i=1,2,…,n)\)が与えられているときに、以下の公式で表されます。

 

※単回帰モデル…説明変数が1つしかないもの。「部屋の広さ」だけで家賃を説明したい場合などに使う

※重回帰モデル…説明変数が複数あるもの。「部屋の広さ・築年数・駅からの距離」の3つで家賃を説明したい場合などに使う

 

なぜこの公式で求められるのかについては、以下の記事を参照してください。

単回帰分析・最小二乗法の公式はどうすれば求められるのか。統計上の誤差と残差の違い

2016.12.30

 

具体的なデータから実際に手を動かしてみた方が飲み込みも早いので、簡単な具体例を見ていきましょう。

手計算とEXCEL計算

今回は、以下の \(No.1~No.5\) の5つの部屋について最小二乗法で回帰直線を求めます。

 

平均・分散共分散の公式からささっと計算してしまいましょう。

 

以上から

\(y-15.6=\frac{74}{200}(x-40)\)

⇔ \(y=0.37x+0.8\)

が求まりました。

 

一度手計算をして計算法が分かったら、それ以降はEXCELで計算すると良いでしょう。

 

 

EXCELには最小二乗法を計算してくれるツールもあるので、計算の仕組みを理解した後はこれを使うと便利です。バージョンによりますが、以下はその一例。

 

 

結果、以下のように回帰直線が表示されます。

 

※横軸が \(x\) 縦軸が \(y\)

 

実際に \(x\) に各 \(x_i\) を代入してみると、対応する \(y_i\) に近い値になっていることが分かりますね。

 

\(R^2\)は決定係数と言って、説明変数 \(x\) が目的変数 \(y\) の変動をどの程度説明できているかを表しています。

決定係数は \(0\) から \(1\) までの値を取り、 \(1\) に近いほどよく説明できていることを意味します。

 

今回は\(R^2=0.9835\)と、かなり高い数値になっていますよね。つまり、この例ではこの直線で精度の高い予測・説明ができる、と考えられるわけです。

公式から分かる回帰直線の性質

また、先の公式をよく見ると、最小二乗法による回帰直線がもつ性質も見えてきます。

 

 

まず1つ目が「回帰直線は\((x_i,y_i)\)の平均である\((\overline{x},\overline{y})\)を通ること」。

2つ目は「説明変数 \(x\) が \(1\) 標準偏差分動くと、目的変数 \(y\) の予測値は \(r_{xy}\) 標準偏差分動くこと」です。

\(r_{xy}\): \(x\) と \(y\) の相関係数。

 

このように考えると、この公式も覚えやすくなるのではないでしょうか。

 

参考リンク

標準偏差や相関係数\(r_{xy}\)については、下記記事を参考に。

標準偏差とは何か?その求め方や公式の意味・使い方をわかりやすく説明します

2016.02.01

相関係数とは何か?その公式と使い方をわかりやすく解説!

2016.07.06

 

SPONSORED LINK

 

ツイッターやブログ等でシェアしていただけると、非常に励みになります。

Tooda Yuuto
大阪大学を卒業後、数字とにらめっこする日々を送る社会人。当たり前なようでアタリマエじゃないことを日々探しています。