L1 罰則と L2 罰則の両方を用いてパラメーターを推定する方法

Elastic Net

LASSO (Tibshirani et al., 1996) はスパース推定法として非常に有用である。しかし、LASSO には 2 つの問題点がある。1 つ目の問題点とは、データのサンプル数が n 個、説明変数の数が p 個のとき、p < n のとき LASSO は高々 n 個のパラメーターまでしか選択できないことである。2 つ目の問題点とは、説明変数同士の相関が高い場合、その中から 1 つしか選択されないことである。

Elastic Net (Zou et al., 2005) は、LASSO の欠点を補うために考案されたモデリング手法である。Elastic Net は、パラメーター推定時において、正規化項として L1 ノルムと L2 ノルムの和を使っている。これにより、Elastic Net によるパラメーター推定において、相関の高い説明変数同士が同じ値になりやすくなる。

Elastic Net によるパラメーター推定式をラグランジュの未定乗数法の式で書き表すと次のようになる。このとき、λ を正則化パラメーターといい、α (0 ≤ α ≤ 1) を調整パラメーターという。

\[ \hat{\boldsymbol{\beta}} = \arg \min \left\{ ||\mathbf{y} - \mathbf{X}\boldsymbol{\beta}||^{2}_{2} + \lambda \sum_{j=1}^{p}\left( \alpha |\beta_{j}| + (1-\alpha) \beta_{j}^{2} \right) \right\} \]

正則化パラメーター λ を無限に大きな値にすると、実質制約条件を与えていないときと同じ状況になる。逆に λ を限りなく 0 に近づけると、ほぼすべてのパラメーターが 0 となる。このように、λ は制約条件の寄与を調整するためのパラメーターである。また、調整パラメーター α を 1 に近づけると、パラメーター推定において LASSO 推定の効果が大きくなり、α を 0 に近づけると、Ridge 推定の効果が大きくなる。

References

  • Tibshirani R. Regression shrinkage and selection via the lasso. J. R. Statist. Soc. B 1996, 58:267-88. DOI: 10.1111/j.1467-9868.2011.00771.x
  • Zou H, Hastie T. Regularization and Variable Selection via the Elastic Net. J. R. Statist. Soc. B 2005, 67:301-320. DOI: 10.1.1.124.4696