尤度比検定 | 2 つの線形モデルの尤度比を利用した検定手法

帰無仮説と対立仮説

尤度比検定は 2 つのモデルの尤度の比を利用した検定である。2 つのモデルは、パラメーターをより多く持つ方を full model、パラメーターをより少ない方を reduced model という。

モデル構築する際に考えられるあらゆるのパラメーターの集合を Θ とする。そのうち full model に組み込まれているパラメーターの集合を Θ⁰ とし、reduced model に組み込まれているパラメーターの集合を Θ¹ とすると、各集合は以下の関係を持つ。

\[ \Theta^{1} \subset \Theta^{0} \subseteq \Theta \]

このとき full model のパラメーターベクトルを β⁰ とし、reduced model パラメーターを β¹ とすると、帰無仮説および対立仮説は以下のように表すことができる。

\[\begin{eqnarray} \mathcal{H}_{0} &:& \mathbf{\beta}^{1} = \mathbf{\beta}^{0} \in \Theta^{0} \\ \mathcal{H}_{1} &:& \mathbf{\beta}^{1} \ne \mathbf{\beta}^{0} \in \Theta^{0} \end{eqnarray}\]

尤度比

尤度比と逸脱度

full model および reduced model の尤度関数を L₀、L₁ とし、最尤推定量をそれぞれ \(\hat{\mathbf{\beta}^{0}}\)、\(\hat{\mathbf{\beta}^{1}}\) とする。

尤度関数 L₀ は考えられるあらゆるパラメーターが含まれているため、任意の点において他のどの尤度関数（たとえば、L₁）よりも大きい値となる。そこで、L₁ を最大にする \(\hat{\mathbf{\beta}^{1}}\) において、両者の比は以下のように計算できる。

\[ \lambda = \frac{L_{0}(\hat{\mathbf{\beta}^{1}})}{ L_{1}(\hat{\mathbf{\beta}^{1}}) } \]

もし、λ = 1 ならば、2 つのモデルは同じと考えられ、reduced model に組み込まれている少数のパラメーターは、モデル構築する際に有意でないということになる。

検定を行う際に、一般的に尤度比を log 変換を行った上で 2 倍にした値が使われる。これを逸脱度 D という。

\[ D = 2 \log\lambda = 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{1}})) \]

対数尤度関数の差の期待値と分散共分散行列

\(l(\hat{\mathbf{\beta}^{1}}) - l(\hat{\mathbf{\beta}^{0}})\) の期待値と分散共分散行列を求める。

まず、\( l({\mathbf{\beta}})\) を \( \mathbf{\beta} = \hat{\mathbf{\beta}} \) でテイラー展開を行う。最初 3 項は以下のように求まる。

\[ l(\mathbf{\beta}) = l(\hat{\mathbf{\beta}}) + \mathbf{U}(\hat{\mathbf{\beta}})(\mathbf{\beta}-\hat{\mathbf{\beta}}) - \frac{1}{2}(\mathbf{\beta}-\hat{\mathbf{\beta}})^{T}\mathbf{I}(\hat{\mathbf{\beta}})(\mathbf{\beta}-\hat{\mathbf{\beta}}) \]

ここで、\(\mathbf{\beta} = \hat{\mathbf{\beta}^{0}}\)、\(\hat{\mathbf{\beta}} = \hat{\mathbf{\beta}^{1}}\) を上式に代入する。

\[ l(\hat{\mathbf{\beta}^{0}}) = l(\hat{\mathbf{\beta}^{1}}) + \mathbf{U}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) - \frac{1}{2}(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \]

帰無仮説が正しければ、\(\hat{\mathbf{\beta}^{1}}\) を \(\hat{\mathbf{\beta}^{0}}\) の最尤推定量とみなすことができる。すなわち、\(\hat{\mathbf{\beta}^{1}}\) はスコア関数（対数尤度関数の 1 次導関数）を 0 にする。このとき、上の式は以下のように書き換えられる。

\[ l(\hat{\mathbf{\beta}^{0}}) = l(\hat{\mathbf{\beta}^{1}}) - \frac{1}{2}(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \]

よって、フィッシャー情報行列が正規性をもつならば、

\[ 2(l(\hat{\mathbf{\beta}^{1}}) - l(\hat{\mathbf{\beta}^{0}})) = (\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \]

統計量の分布

一般に、連続した値 t が存在するとき、t は正規分布に従うものと近似できる。また、t を標準化すれば、t は標準正規化に従う。すなわち、

\[ \frac{t-E[t]}{\sqrt{Var[t]}} \sim N(0, 1)\]

これは以下の式と同じである。

\[ \frac{(t-E[t])^{2}}{Var[t]} \sim \chi ^{2}(1)\]

t が要素数 p を持つベクトル t のとき、同じことを以下のように表現できる。ただし V を分散共分散行列とする。

\[ (\mathbf{t}-E[\mathbf{t}])^{T}\mathbf{V}^{-1}(\mathbf{t})(\mathbf{t}-E[\mathbf{t}]) \sim \chi ^{2}(p) \]

逸脱度

ここで統計量 t を統計量 \(l_{0}(\hat{\mathbf{\beta}^{1}})\) に置き換えて、帰無仮説が成り立つならば \(E[l_{0}(\hat{\mathbf{\beta}^{1}})] = l_{0}(\hat{\mathbf{\beta}^{0}})\) である。このモデルに含まれるパラメーターの個数を p とする。このとき、

\[ 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{0}(\hat{\mathbf{\beta}^{0}})) = (\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \sim \chi^{2}(p) \]

同様にして t を統計量 \(l_{1}(\hat{\mathbf{\beta}^{1}})\) に置き換えて、帰無仮説が成り立つならば \(E[l_{1}(\hat{\mathbf{\beta}^{1}})] = l_{1}(\hat{\mathbf{\beta}^{0}})\) である。また、このモデルに含まれるパラメーターの個数を q とする。このとき、

\[ 2(l_{1}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{0}})) = (\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}})^{T}\mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}}-\hat{\mathbf{\beta}^{1}}) \sim \chi^{2}(q) \]

この式を利用して、逸脱度 D について整理すると以下のようになる。

\[ \begin{eqnarray} D &=& 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{1}})) \\ &=& 2(l_{0}(\hat{\mathbf{\beta}^{1}}) - l_{0}(\hat{\mathbf{\beta}^{0}})) - 2(l_{1}(\hat{\mathbf{\beta}^{1}}) - l_{1}(\hat{\mathbf{\beta}^{0}})) + 2(l_{0}(\hat{\mathbf{\beta}^{0}}) - l_{1}(\hat{\mathbf{\beta}^{1}}))\\ & \sim & \chi(p-m, v) \end{eqnarray} \]

ただし、\(v = 2(l_{0}(\hat{\mathbf{\beta}^{0}}) - l_{1}(\hat{\mathbf{\beta}^{1}}))\) である。また、p は L₀ を構築する際に用いたパラメーターの数を表し、q はL₁ を構築する際に用いたパラメーターの数を表す。

このように逸脱度は自由度 p - m のカイの二乗分布に従う。尤度比検定ではこのことを利用して行う。

References

Chen H. Chapter 5. Hypothesis Testing. 2010. PDF
Matthew S. Hypothesis Testing. 2013. PDF
Lecture 16: Score and Wald Tests. PDF
Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.