ベイズ推定において、事前分布を決めるところから始まる。事前分布は、過去の文献、予備データや経験でおよその分布がわかっている場合は、そのような分布を今回の事前分布として用いることができる。ただし、その際に、先行研究におけるデータの収集方法や解析目的が、今回のこの実験のデータ収集方法と解析目的と一致しているかどうかを確認する必要がある。
一方で、事前分布に関してまったく情報がない場合は、無情報事前分布が用いられる。ただ、この無情報事前分布の無情報に関する定義が難しいために、現在では、一様分布、共役事前分布、Jeffreys 事前分布などのいくつかの無情報事前分布が提唱されている。どの無情報事前分布が最適なのかは知られていない。実用上、いくつかの事前分布を試して、推定結果があまり変わらなければよいと言われている。
無情報事前分布
無情報事前分布は、事前に情報がない場合や事前分布を設定するにあたって根拠がない場合などに、利用される。無情報事前分布として、一様分布、共役事前分布や Jeffreys 事前分布などが用いられる。
一様分布
ベイズ推定は、以下の式に基づいて行われる。
\[ w'(\theta|z) = \frac{w(\theta)f(z|\theta)}{\int_{\Theta} w(\theta)f(z|\theta)d\theta} \propto w(\theta)f(z|\theta) \]この式について、分母はパラメーター θ を含まない定数となっている。また、事前分布として一様分布を用いた場合、ベイズ推定の式の中に現れている w(θ) の値を一定とみなすことができる。例えば、サイコロを振る試行における無情報事前分布として、各目が出る確率を一定と仮定することができる。つまり、w(1) = w(2) = ... = w(6) = 1/6 となる。このとき、ベイズ推定は、次のようなシンプルな式で推定することができるようになる。
\[ w'(\theta) \propto f(z|\theta) \]このとき、ベイズ推定により推定された事後分布の最頻値(MAP 推定値)は最尤推定値と同じ値にある。
ただし、無情報事前分布として一様分布を用いたとき、2 つの問題点がある。1 つ目の問題点は、パラメーターの定義域に関する問題点である。サイコロを振る試行の場合は、確率変数の取りうる値は 1 から 6 までの変数で、その一様分布は 1/6 となることが簡単に計算できる。しかし、連続型の確率変数 θ が定義域 -∞ < θ < ∞ であるとき、この確率変数 θ に対して、一様分布を定義できなくなる。
もう 1 つの問題点は、パラメーター変換に対する不変性に関する問題点である。θ に関して事前情報がない場合、θ2 に関しても事前情報がない。つまり、θ に関して無情報事前分布を採用したならば、θ2 も無情報事前分布でなければならない。しかし、実際には、無情報事前分布として一様分布を選んだとき、これが成り立たなくなる。例えば、二項分布に従う確率変数 X について考えるとき、X の値は確率 θ (0 < θ < 1) によって異なる。このとき、θ の事前分布として、0 < θ < 1 の範囲において一様分布を選ぶことができる。ここで、φ = θ2 に着目すると、φ の累積分布関数 Fφ(t) は次のように計算できる。
\[ F_{\phi}(t) = Pr(\phi \le t) = Pr(\theta^{2} \le t) = Pr(\theta \le \sqrt{t}) = \sqrt{t} \]累積分布関数を微分すると確率密度関数(分布)が得られるので、φ の分布は次のように計算される。
\[ f(t) = \frac{d}{dt}F_{\phi}(t) = \frac{d}{dt}\sqrt{t} = \frac{1}{2\sqrt{t}} \]このように φ の分布は一様でなくなる。無情報を一様と定義して、θ の事前分布として一様分布を採用したにもかかわらず、θ2 の分布が一様でなくなり、何らかの主観的な事前分布となる。つまり、θ については何も知らないが、θ2 については何かを知っているという矛盾な状況となる。
実用的な例を挙げると、確率データあるいは割合データをベイズ推定するときに、このような状況が起こる。確率 p (0 ≤ p ≤ 1) で観測される変数 X について考えたとき、確率 p に関するベイズ推定の式は次のようにかける。
\[w'(p|x) \propto w(p)f(x|p)\]p は確率なので、一般的に確率を推定するときに p をそのまま用いるのではなく、\(\frac{p}{1-p} \) の形(オッズ比)で用いられる。つまり、ベイズ推定式中の尤度関数 f(x|p) の中では、p は \(\frac{p}{1-p} \) の形で使われている。ここで、p の事前分布 w(p) として無情報事前分布の一様分布を採用すると、尤度関数 f(x|p) 中で使われている \(\frac{p}{1-p} \) は一様分布でなくなる。これによって、ベイズ推定された事後分布 w'(p|x) には、主観的な情報が入り込んでしまう結果となる。
このような問題点を避けるために、パラメーター θ の事前分布 w(θ) を一様分布にするのではなく、尤度関数の中で使われているパラメーターの形 φ = g(θ) を一様分布となるように事前分布を決めるアプローチを取ることができる。つまり、w(θ) を一様分布にするのではなく、 w(g(θ)) を一様分布にする。このようなアプローチとしていくつかの方法が提唱されており、Jeffreys 事前分布などがある。
共役事前分布
ベイズ推定は次の式で表すことができる。この式の形から、事前分布が複雑になると、その事後分布の計算も複雑なることがわかる。そこで、尤度関数 f(z|θ) の形を見て、f(z|θ) にある事前分布の関数 w(θ) をかけると、事後分布 w'(θ|z) の形が簡単になるようにすれば、ベイズ推定における事後分布の計算が簡単になる。
\[w'(\theta|z) = \frac{w(\theta)f(z|\theta)}{\int_{\Theta} w(\theta)f(z|\theta)d\theta} \propto w(\theta)f(z|\theta)\]その方法の一つとして、事前分布としてある確率分布 g を選び、尤度関数 f にかけたら、その事後分布も g の形で表せるようにして、確率分布 g を選ぶことである。実際に、このような確率分布 g がいくつか存在していることが知られている。
例えば、尤度関数 f(z|θ) が二項分布で表されているとき、ベータ分布を事前分布 w(θ) として選ぶと、事後分布 w'(θ|z) もベータ分布となる。このように、ある確率分布を選んで事前分布としてベイズ推定を行った時、その事後分布もその確率分布の形で表されるとき、その事前分布(確率分布)のことを共役事前分布という。共役事前分布は尤度関数の形に応じて決められるので、代表的なものをいくつかあげると、次の表のようになる。
尤度関数 f(θ|z) | 共役事前分布 w(θ) |
ベルヌーイ分布 | ベータ分布 |
二項分布 | ベータ分布 |
ポアソン分布 | ガンマ分布 |
多項分布 | ディリクレ分布 |
正規分布(分散既知) | 正規分布 |
正規分布 | 逆ガンマ分布 |
共役事前分布を用いることで、ベイズ推定の計算が簡単になる利点がある。現在では、コンピュータの性能が上がり、MCMC が簡単に実行できるようになったので、計算コスト削減という目的だけのために、わざわざ共役事前分布を用いる必要はない。