Cluster LASSO は fused LASSO を拡張したスパース推定法である。Fused LASSO では、隣接した説明変数同士の係数を同じ値になるように、隣り合う 2 個の説明変数の係数の差を罰則項としていた。これに対して、cluster LASSO は、2 個の説明変数の係数の差をすべての組み合わせに対して求めたものを罰則項としている。
Cluster LASSO のパラメーター推定式をラグランジュの未定乗数法の式で書き表すと、次のようになる。
\[ \hat{\boldsymbol{\beta}} = \arg \min_{\boldsymbol{\beta}} \left\{ ||\mathbf{y}-\mathbf{X}\mathbf{\beta}||^{2}_{2} + \lambda_{1} \sum_{j=1}^{p}|\beta_{j}| + \lambda_{2} \sum_{j\lt k}|\beta_{j} - \beta_{k}| \right\} \]この式に基づいてパラメーターを推定すると、ほぼ同じ性質を持つ説明変数は、その係数が同じ値になる。そのため、推定された係数(パラメーター)の値を元に説明変数のグループ分けを行うことができるようになる。つまり、clsuter LASSO は、目的変数という正解データを用いて説明変数をクラスタリングしている、というように解釈できる。
ただし、このパラメーター推定式からもわかるように、cluster LASSO の 2 つ目の正則化項では |βj - βk| としてあるので、説明変数 j と説明変数 k が強く正の相関であるとき、その係数 βj と βk の値は同じ値にある。これに対して、説明変数 j と説明変数 k が負の相関(例えば βj < 0 かつ βk > 0)であるとき、両者は異なる値となる。正の相関と負の相関が同じものとみなしてスパース推定するには OSCAR とばよれる方法を使う。