最尤推定はパラメータを 1 つの定数として推定するが、ベイズ推定はパラメータを確率分布として推定

最尤推定とベイズ推定

最尤推定

統計の基本的な考え方として、我々が観測できるデータは、何らかの分布から生成されたものである。例えば下図のように、あるパラメータ θ が存在し、そのパラメータを持つ確率分布がある。この確率分布から確率変数が生成され、その変数にノイズが加わることで我々が観測できるデータとなる。

最尤推定によるパラメータ推定(1)

自然界で観測できるのはノイズが加わったデータ z のみであり、その生成過程を観測できない。正確な確率分布も観測できなければ、その確率分布のパラメータ θ も観測できない。観測データ z を解釈したければ、あるいは将来的に得られる z を予測したければ、どうにか z を生成する確率分布とそのパラメータを推定する必要がある。その代表的なパラメータ推定方法の一つが最尤推定である。

最尤推定によるパラメータ推定(3)

最尤推定法では、観測したデータの分布を確認し、それに相応しい確率分布を決めるところから始める。例えば、観測データが整数であり、その平均が分散とほぼ同じであれば、ポアソン分布と仮定することができる。そこで、観測データがポアソン分布に従うと仮定して解析を進める。ポアソン分布のパラメータは θ だけである。これを推定していく必要がある。

最尤推定によるパラメータ推定(4)

最尤推定では、すべての観測データをポアソン分布の確率関数に代入して、それらの同時確率を求める。ポアソン分布のパラメータ θ は不明であるため、この同時確率は θ についての関数となる。そこで、同時確率が最も高い θ が見つかれば、その θ が現在のデータを説明するための尤もらしい θ となる。つまり、今もっているデータを生成するため確率が最大であるような θ のことである。これが最尤推定である。

\[ Lik(z|\theta) = \prod_{z}P(X=z) \]
最尤推定によるパラメータ推定(5)

パラメータの最尤推定をまとめると、まず観測データの分布を見て、そのデータの分布にふさわしい確率分布を仮定した上で、その確率分布のパラメータを推定していくことプロセスとなる。このプロセスの中で仮定した確率分布が、本当にふさわしいと言えない場合もある。そのため、複数の確率分布を仮定して、パラメータを推定することもある。例えば、整数値からなるデータであれば、必要に応じてポアソン分布のほかに、負の二項分布も用いたりして、これらの分布のパラメータをそれぞれ推定する。次に、パラメータを推定した結果を見比べる。どの分布を仮定した方が観測データをより適切に説明できるのかという観点で、最適なものを選ぶ。

ベイズ推定

ところで、パラメータ θ は一つの定数と考えて正しいのか。それとも、θ が定数ではなく、ある確率分布に従う確率変数と考えた方が正しいのか。両者が必ずしも一方が正しくて、他方が間違っているといえない。複雑な自然現象を解析していく中で、解決すべき問題の特徴に応じて使い分けるべきである。最尤推定はパラメータを一つの定数と考えて推定するのに対して、ベイズ推定はパラメータが一つの確率分布に従う変数と考えて推定している。

ベイズ推定の基本的な考え方として、下図のように、ある確率分布からパラメータ θ が生成され、その θ を持つ別の確率分布から確率変数が生成され、その変数にノイズが加わることで我々が観測できるデータとなる。

ベイズ推定によるパラメータ推定(1)

ここで、観測データから逆にパラメータ θ の分布を推定するのがベイズ推定になる。θ の分布の推定が難しいように思えるが、ベイズの定理を用いることで計算できるようになる。結果 z を観測したときに、その原因となる θ の確率分布 w(θ|z) を考えればよく、これをベイズの定理に当てはめると、次のようになる。

\[ w(\theta | z) = \frac{w(\theta)f(z|\theta)}{\int_{\Theta}w(\theta)f(z|\theta)d\theta} \]
ベイズ推定によるパラメータ推定(2)

ポアソン分布であればパラメータが 1 つだけであるため、計算が簡単である。確率分布が複雑になると、パラメータ数も増えるため、計算が難しくなる。そこで、数式に基づく計算を行わずに、代わりに乱数を使用して近似解を求める MCMC と呼ばれる方法が使われる。近似解が求まると、これをベイズ推定の式の分母に代入すると、 w(θ|z) の分布の形を推定できるようになる。

ベイズ推定によるパラメータ推定(3)