決定係数や二乗平均平方根誤差などを利用して回帰モデルを評価

回帰分析の評価指標

回帰分析で得られたモデルの精度がどれぐらいよいのかを評価する指標として、決定係数 R2、二乗平均平方根誤差(RMSE)や平均絶対誤差(MAE)などがよく用いられる。ただ、これらの評価指標はその定義式にあるように、実際の観測値を利用して計算される。つまり、これらの指標は、モデルを構築する際に利用したデータセットの影響を受ける。そのため、異なるデータセットで構築した複数のモデルを、これらの指標を使って比較することはできない。これらの指標でモデル間の比較を行うとき、入力データセットを揃うべき。

決定係数 R2

決定係数は、観測値を yi (i = 1, 2, 3, ..., n)、モデルから計算した計算値(予測値)を \(\hat{y_{i}}\)、観測値の平均を \(\bar{y}\) とすると、次の式によって定義される(他の定義方法も存在する)。観測値とモデルから計算した計算値(予測値)がほぼ同じになると、次式の分子が 0 に近づくため、R2 は 1 に近づく。逆に、観測値と予測値がかけ離れていると、分子が大きな値となり、R2 は 1 から離れた値となる。

\[ R^{2} = 1 -\frac{\sum_{i=1}^{n}\left(y_{i} - \hat{y_{i}}\right)^{2}}{\sum_{i=1}^{n}\left( y_{i} - \bar{y} \right)^{2}} \]

二乗平均平方根誤差 RMSE

RMSE は、root mean squared error の略で、回帰モデルの誤差を評価する指標の一つである。RMSE は、観測値を yi (i = 1, 2, 3, ..., n)、モデルから計算した計算値(予測値)を \(\hat{y_{i}}\) とすると、次の式によって定義される。観測値と計算値(予測値)が近づくほど、RMSE は小さくなる。

\[ RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left( y_{i} - \hat{y_{i}} \right)^{2}} \]

平均絶対誤差 MAE

MAE は、mean absolute error の略で、、観測値を yi (i = 1, 2, 3, ..., n)、モデルから計算した計算値(予測値)を \(\hat{y_{i}}\) とすると、次の式によって定義される。観測値と計算値(予測値)が近づくほど、MAE は小さくなる。MAE は、誤差を二乗していないので、外れ値の影響を受けにくいと言われている。

\[ RMSE = \frac{1}{n}\sum_{i=1}^{n}| y_{i} - \hat{y_{i}} |\]