決定係数

回帰直線のあてはまりの良さを測る指標として、決定係数 R2 というものがある。決定係数は 0 から 1 の間の値をとる。決定係数は、観測値を yi (i = 1, 2, 3, ..., n)、モデルから計算した計算値(予測値)を \(\hat{y_{i}}\)、観測値の平均を \(\bar{y}\) としたとき、説明変数と目的変数の相関から次のように導かれる。観測値とモデルから計算した計算値(予測値)がほぼ同じになると、次式の分子が 0 に近づくため、R2 は 1 に近づく。逆に、観測値と予測値がかけ離れていると、分子が大きな値となり、R2 は 1 から離れた値となる。

\[ R^{2} = 1 -\frac{\sum_{i=1}^{n}\left(y_{i} - \hat{y_{i}}\right)^{2}}{\sum_{i=1}^{n}\left( y_{i} - \bar{y} \right)^{2}} \]

単回帰と決定係数

単回帰直線の決定係数について考える。

β1 をピアソンの積率相関係数 r で書き表すと次のようになる。

\[ \hat{\beta_{1}} = \frac{\sum_{i=1}^{n}(x_{i}-\bar{x}) (y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}} = r\frac{\sigma_{y}}{\sigma_{x}} \]

次に、残差の平方の和(残差平方和)を相関係数で表してみることにする。ここで、まず β1 に対して式変更を行う。

\[ \sum_{i=1}^{n}(x_{i}-\bar{x}) (y_{i}-\bar{y}) = \beta_{1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \] \[ \sum_{i=1}^{n}(x_{i}-\bar{x}) \left( (y_{i}-\bar{y}) - \beta_{1}(x_{i}-\bar{x}) \right) = 0\] \[ \sum_{i=1}^{n}(x_{i}-\bar{x}) \left( y_{i} - (\beta_{0} + \beta_{1}x_{i}) \right) = 0 \]

回帰直線について、\( \hat{y_{i}} - \bar{y} = \beta_{1}(\hat{x_{i}} - \bar{x}) \) が成り立つので、上式を整理すると下式のようになる。

\[ \sum_{i=1}^{n}(\hat{y_{i}} - \bar{y})(y_{i} - \hat{y_{i}}) = 0 \]

\( y_{i} - \bar{y} = (y_{i} - \hat{y_{i}}) + (\hat{y_{i}} - \bar{y}) \) により、次式が得られる。これを式 (1) とおく。

\[ \sum_{i=1}^{n}(y_{i}-\bar{y})^{2} = \sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2} + \sum_{i=1}^{n}(\hat{y_{i}} - \bar{y})^{2} \]

また、\( \beta_{1} = r\sigma_{y}/\sigma_{x} \) より、\( \hat{y_{i}} - \bar{y} = r\sigma_{y}/\sigma_{x} (\hat{x_{i}} - \bar{x}) \) が成り立つことを利用して、次の等式が得られる。これを式 (2) とおく。

\[ \begin{eqnarray} \sum_{i=1}^{n}\left(\hat{y_{i}} - \bar{y}\right)^{2} &=& r^{2}\frac{n\sigma_{y}^{2}}{n\sigma_{x}^{2}} \sum_{i=1}^{n}(x_{i}-\bar{x})^{2} \\ &=& r^{2}n\sigma_{y}^{2} \\ &=& r^{2}\sum_{i=1}^{n}(y_{i} - \bar{y})^{2} \end{eqnarray} \]

式 (2) を式 (1) に代入すると、次式が得られる。

\[ \sum_{i=1}^{n}\left( y_{i} - \hat{y_{i}}\right)^{2} = (1-r^{2})\sum_{i=1}^{n}(y_{i} - \bar{y})^{2} \]

この式から、相関係数の 2 乗(r2)が 1 に近いほど、yi が \(\hat{y_{i}}\) に近くなる。r2=1 ならば、回帰式 yi = β0 + β1x1 は正確に成り立ち、y は x によって決定される。この r2 のことを決定係数といい、一般に R2 と書く。

決定係数について整理すると次の式が得られる。

\[ R^{2} = 1 - \frac{\sum_{i=1}^{n}\left( y_{i} - \hat{y_{i}}\right)^{2}}{\sum_{i=1}^{n}(y_{i} - \bar{y})^{2}} \]

自由度調整済みの決定係数

回帰モデルにおいて、説明変数の数を増やせば回帰直線のあてはまりもよくなる。つまり、説明変数の数を増やせば、決定係数 R2 も高くなる。回帰直線のあてはまりの良さを公平に評価する場合、説明変数の数による影響を取り除く必要がある。そこで、説明変数の数を p、標本数を n としたとき、次のように決定係数を調整する。これを自由度調整済みの決定係数と呼ぶ。

\[ R'^{2} = 1 - \frac{\frac{1}{n-p-1}\sum_{i=1}^{n}(y_{i} - \hat{y_{i}})^{2}}{\frac{1}{n-1}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}} \]