LASSO は様々な解析目的に応じて拡張されている

LASSO の拡張

高次元小標本データを線形回帰するときに、あるいは、特徴量(説明変数)の相関が高い多重共線性を持つデータを線形回帰するとき、最小二乗推定量が存在しない。そのため、線形回帰を行うときに、パラメーターの推定ができなくなる。このとき、パラメーターの推定式に罰則(正則化項)を与えて、いくつかのパラメーターを強制的にゼロにすることで、他のパラメーターがも求まるようになる。

正則化項として、||β||1 を用いた場合は、L1 正則化(LASSO)とよぶ(Tibshirani, 1996)。このとき、パラメータ β は次の式に基づいて推定する。

\[ \hat{\mathbf{\beta}} = argmin_{\beta}\left(||\mathbf{y}-\mathbf{X}\mathbf{\beta}||^{2}_{2} + \lambda ||\mathbf{\beta}||_{1}\right) \]

LASSO 推定は、このようにシンプルな数式で書き表すことができる。シンプルなだけに、LASSO にはいくつかの問題点がある。例えば、特徴量(説明変数)が p 個で、標本が n 個のとき、推定される非ゼロのパラメーター数は高々 n 個となることが知られている。また、特徴量の中に、相関の高い変数が複数ある場合、LASSO では、その中から 1 つしか選択できない。

これらの問題を解決するために、LASSO に対して様々な拡張が行われている。LASSO に Ridge 回帰の性質を付け加えた Elastic Net をはじめとして、fused LASSO や group LASSO などの方向が考案された。

Fused LASSO

Fused LASSO (Tibshirani et al., 2004) は、特徴量(説明変数)に順序があり、隣接した説明変数同士の係数を同じ値になるように束縛項を加えた LASSO である。

\[ \hat{\mathbf{\beta}} = argmin_{\beta}\left(||\mathbf{y}-\mathbf{X}\mathbf{\beta}||^{2}_{2} + \lambda_{1} ||\mathbf{\beta}||_{1} + \lambda_{2} \sum_{j=2}^{p}|\beta_{j} - \beta_{j-1}| \right) \]

Group LASSO

Group LASSO (Yuan et al., 2005) は、説明変数間でグループを形成しているときに、変数選択において、(個々の説明変数を選ぶのではなく、)グループを選択したいときに利用する方法である。例えば、解析対象となる複数の遺伝子を「がん促進遺伝子」、「がん抑制遺伝子」および「その他」に分けてから、がんの発症を遺伝子の発現量で説明するモデルを作成するときに Group LASSO が使われる。このとき、変数選択において、遺伝子 a と遺伝子 b が選択されたというよりも、「がん促進遺伝子」グループと「がん抑制遺伝子」グループに含まれたすべての遺伝子が選択されるようにしたい場合は、Group LASSO を用いる。

Group LASSO の罰則項は次のように表される。ただし、p 個の説明変数が G 個のグループに分かれているものとし、Xg をグループ g の計画行列で、βg をグループ g の回帰係数とする。また、Kg を正定値行列をする。

\[ \hat{\mathbf{\beta}} = argmin_{\beta}\left(||\mathbf{y}-\sum_{g=1}^{G}\mathbf{X}_{g}\mathbf{\beta}_{g}||^{2}_{2} + \lambda \sum_{g=1}^{G}||\beta_{g}|| _{K_{g}} \right)\]

Overlapping group LASSO

Group LASSO (Jacob et al., 2009) を拡張した方法で、1 つの説明変数が複数のグループに含まれても LASSO 推定を行うことができる。1 つの遺伝子が複数の機能をもつ場合が多い。そのため、遺伝子をグループ分けするとき、1 つの遺伝子が複数のグループに分けられる場合が見られる。このように 1 つの説明変数が、複数のグループに属しているときに Overlapping group LASSO を利用する。

OSCAR (Octagonal shrinkage and clustering algorithm for regression)

OSCAR (Bondell et al., 2008) は、説明変数を自動的にグループ分けするとともに、変数選択を行う方法である。

References

  • Tibshirani R. Regression shrinkage and selection via the lasso. J. R. Statist. Soc. B 1996, 58:267-88. DOI: 10.1111/j.1467-9868.2011.00771.x
  • Tibshirani R, Saunders M, Rosset S, Zhu J, Knight K. Sparsity and smoothness via the fused lasso. J. R. Statist. Soc. B 2004, 67:91-108. DOI: 10.1111/j.1467-9868.2005.00490.x
  • Yuan M, Lin Y. Model selection and estimation in regression with grouped variables. J. R. Statist. Soc. B 2005, 68:49-67. DOI: 10.1111/j.1467-9868.2005.00532.x
  • Jacob L, Obozinski G, Vert JP. Group Lasso with overlap and graph lasso ICML Proceedings 2009, 433-40
  • Bondell HD, Reich BJ. Simultaneous regression shrinkage, variable selection, and supervised clustering of predictors with OSCAR. Biometrics 2008, 64(1):115-23. DOI: 10.1111/j.1541-0420.2007.00843.x