スパースモデリングによる高次元小標本データの解析

スパース推定

生命科学の分野で大量なデータが蓄積されるようになった。マイクロアレイや RNA-Seq などの遺伝子発現量データがその代表例といえる。遺伝子発現量のデータは、遺伝子数は数万個であるのに対して、サンプル数は数十あるいは数百と著しく少ない。言い換えれば、遺伝子の発現量データは、特徴量が大きく、サンプルサイズの小さい高次元小標本となっている。

高次元のデータをモデリングするときには、その次元の数よりも多くの標本を必要とする。しかし、生命科学の分野では、生物の個体数やコストなどの関係により、(すくなくとも)現在は標本数を大きくすることはできない。そこで、高次元となっている特徴量をから、互いに相関の高い特徴量を 1 つだけ残して他を削除するなどの操作を行い、次元削減が行われている。高次元小標本データの次元を削減し、問題を解きやすくする方法の一つにスパース推定があげられる。