帰無仮説と対立仮説
尤度比検定は 2 つのモデルの尤度の比を利用した検定である。2 つのモデルは、パラメーターをより多く持つ方を full model、パラメーターをより少ない方を reduced model という。
モデル構築する際に考えられるあらゆるのパラメーターの集合を Θ とする。そのうち full model に組み込まれているパラメーターの集合を Θ0 とし、reduced model に組み込まれているパラメーターの集合を Θ1 とすると、各集合は以下の関係を持つ。
\[ \Theta^{1} \subset \Theta^{0} \subseteq \Theta \]
このとき full model のパラメーターベクトルを β0 とし、reduced model パラメーターを β1 とすると、帰無仮説および対立仮説は以下のように表すことができる。
\[\begin{eqnarray}
\mathcal{H}_{0} &:& \mathbf{\beta}^{1} = \mathbf{\beta}^{0} \in \Theta^{0} \\
\mathcal{H}_{1} &:& \mathbf{\beta}^{1} \ne \mathbf{\beta}^{0} \in \Theta^{0}
\end{eqnarray}\]
尤度比
尤度比と逸脱度
full model および reduced model の尤度関数を L0、L1 とし、
最尤推定量をそれぞれ \(\hat{\mathbf{\beta}^{0}}\)、\(\hat{\mathbf{\beta}^{1}}\) とする。
尤度関数 L0 は考えられるあらゆるパラメーターが含まれているため、任意の点において他のどの尤度関数(たとえば、L1)よりも大きい値となる。そこで、L1 を最大にする \(\hat{\mathbf{\beta}^{1}}\) において、両者の比は以下のように計算できる。
\[
\lambda = \frac{L_{0}(\hat{\mathbf{\beta}^{1}})}{ L_{1}(\hat{\mathbf{\beta}^{1}}) }
\]
もし、λ = 1 ならば、2 つのモデルは同じと考えられ、reduced model に組み込まれている少数のパラメーターは、モデル構築する際に有意でないということになる。
検定を行う際に、一般的に尤度比を log 変換を行った上で 2 倍にした値が使われる。これを逸脱度 D という。
\[
D = 2 \log\lambda = 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{1}}))
\]
対数尤度関数の差の期待値と分散共分散行列
\(l(\hat{\mathbf{\beta}^{1}}) - l(\hat{\mathbf{\beta}^{0}})\) の期待値と分散共分散行列を求める。
まず、\( l({\mathbf{\beta}})\) を \( \mathbf{\beta} = \hat{\mathbf{\beta}} \) でテイラー展開を行う。最初 3 項は以下のように求まる。
\[
l(\mathbf{\beta}) = l(\hat{\mathbf{\beta}}) + \mathbf{U}(\hat{\mathbf{\beta}})(\mathbf{\beta}-\hat{\mathbf{\beta}}) -
\frac{1}{2}(\mathbf{\beta}-\hat{\mathbf{\beta}})^{T}\mathbf{I}(\hat{\mathbf{\beta}})(\mathbf{\beta}-\hat{\mathbf{\beta}})
\]
ここで、\(\mathbf{\beta} = \hat{\mathbf{\beta}^{0}}\)、\(\hat{\mathbf{\beta}} = \hat{\mathbf{\beta}^{1}}\) を上式に代入する。
\[
l(\hat{\mathbf{\beta}^{0}}) = l(\hat{\mathbf{\beta}^{1}}) + \mathbf{U}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) -
\frac{1}{2}(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})
\]
帰無仮説が正しければ、\(\hat{\mathbf{\beta}^{1}}\) を \(\hat{\mathbf{\beta}^{0}}\) の最尤推定量とみなすことができる。すなわち、\(\hat{\mathbf{\beta}^{1}}\) はスコア関数(対数尤度関数の 1 次導関数)を 0 にする。このとき、上の式は以下のように書き換えられる。
\[
l(\hat{\mathbf{\beta}^{0}}) = l(\hat{\mathbf{\beta}^{1}}) -
\frac{1}{2}(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})
\]
よって、フィッシャー情報行列が正規性をもつならば、
\[
2(l(\hat{\mathbf{\beta}^{1}}) - l(\hat{\mathbf{\beta}^{0}})) =
(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})
\]
統計量の分布
一般に、連続した値 t が存在するとき、t は正規分布に従うものと近似できる。また、t を標準化すれば、t は標準正規化に従う。すなわち、
\[ \frac{t-E[t]}{\sqrt{Var[t]}} \sim N(0, 1)\]
これは以下の式と同じである。
\[ \frac{(t-E[t])^{2}}{Var[t]} \sim \chi ^{2}(1)\]
t が要素数 p を持つベクトル t のとき、同じことを以下のように表現できる。ただし V を分散共分散行列とする。
\[
(\mathbf{t}-E[\mathbf{t}])^{T}\mathbf{V}^{-1}(\mathbf{t})(\mathbf{t}-E[\mathbf{t}]) \sim \chi ^{2}(p)
\]
逸脱度
ここで統計量 t を統計量 \(l_{0}(\hat{\mathbf{\beta}^{1}})\) に置き換えて、帰無仮説が成り立つならば \(E[l_{0}(\hat{\mathbf{\beta}^{1}})] = l_{0}(\hat{\mathbf{\beta}^{0}})\) である。このモデルに含まれるパラメーターの個数を p とする。このとき、
\[
2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{0}(\hat{\mathbf{\beta}^{0}})) =
(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \sim \chi^{2}(p)
\]
同様にして t を統計量 \(l_{1}(\hat{\mathbf{\beta}^{1}})\) に置き換えて、帰無仮説が成り立つならば \(E[l_{1}(\hat{\mathbf{\beta}^{1}})] = l_{1}(\hat{\mathbf{\beta}^{0}})\) である。また、このモデルに含まれるパラメーターの個数を q とする。このとき、
\[
2(l_{1}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{0}})) =
(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \sim \chi^{2}(q)
\]
この式を利用して、逸脱度 D について整理すると以下のようになる。
\[
\begin{eqnarray}
D &=& 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{1}})) \\
&=& 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{0}(\hat{\mathbf{\beta}^{0}}))
- 2(l_{1}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{0}}))
+ 2(l_{0}(\hat{\mathbf{\beta}^{0}}) - l_{1}(\hat{\mathbf{\beta}^{1}}))\\
& \sim & \chi(p-m, v)
\end{eqnarray}
\]
ただし、\(v = 2(l_{0}(\hat{\mathbf{\beta}^{0}}) - l_{1}(\hat{\mathbf{\beta}^{1}}))\) である。また、p は L0 を構築する際に用いたパラメーターの数を表し、q はL1 を構築する際に用いたパラメーターの数を表す。
このように逸脱度は自由度 p - m のカイの二乗分布に従う。尤度比検定ではこのことを利用して行う。
References
- Chen H. Chapter 5. Hypothesis Testing. 2010. PDF
- Matthew S. Hypothesis Testing. 2013. PDF
- Lecture 16: Score and Wald Tests. PDF
- Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.