Wald 検定

帰無仮説と対立仮説

Wald 検定は 2 つのモデルそれぞれの最尤推定量の差を利用した検定である。2 つのモデルは、パラメーターを多く持つ full model とより少数のパラメーターをしか持たない reduced model となる。full model のパラメーターの最尤推定量を \(\hat{\mathbf{\beta}^{0}}\) とし、reduced model のパラメーターの最尤推定量を \(\hat{\mathbf{\beta}^{1}}\) とすると、その差は \(\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}}\) と書ける。差が 0 になれば full model と reduced model は同じモデルであると判定し、reduced model に組み込まれた少数のパラメーターは重要なパラメーターではないことを意味する。

モデル構築する際に、考えられるあらゆるのパラメーターの集合を Θ とし、full model に組み込まれているパラメーターの集合を Θ0 とし、reduced model に組み込まれているパラメーターの集合を Θ1 とすると、各集合は以下の関係を持つ。

\[ \Theta^{1} \subset \Theta^{0} \subseteq \Theta \]

このとき full model のパラメーターベクトルを β0 とし、reduced model のパラメーターを β1 とすると、帰無仮説および対立仮説は以下のように表すことができる。

\[\begin{eqnarray} \mathcal{H}_{0} &:& \mathbf{\beta}^{1} = \mathbf{\beta}^{0} \in \Theta^{0} \\ \mathcal{H}_{1} &:& \mathbf{\beta}^{1} \ne \mathbf{\beta}^{0} \in \Theta^{0} \end{eqnarray}\]

Wald 統計量

期待値と分散共分散行列

full model および reduced model の最尤推定量をそれぞれ \(\hat{\mathbf{\beta}^{1}}\)、\(\hat{\mathbf{\beta}^{0}}\) とする。両者の差 \(\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}}\) について見ていく。

対数尤度関数の 1 次導関数、すなわちスコア関数 U(β) を \(\mathbf{\beta} = \hat{\mathbf{\beta}}\) のまわりでテイラー展開し、最初の 2 項だけを取り出す。

\[ \mathbf{U}(\mathbf{\beta}) = \mathbf{U}(\hat{\mathbf{\beta}}) - \mathbf{I}(\hat{\mathbf{\beta}})(\mathbf{\beta} - \hat{\mathbf{\beta}}) \]

ここで、\(\mathbf{\beta} = \hat{\mathbf{\beta}^{0}}\)、\(\hat{\mathbf{\beta}} = \hat{\mathbf{\beta}^{1}}\) を上式に代入する。

\[ \mathbf{U}(\hat{\mathbf{\beta}^{0}}) = \mathbf{U}(\hat{\mathbf{\beta}^{1}}) - \mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}} - \hat{\mathbf{\beta}^{1}}) \]

帰無仮説が正しければ、\(\hat{\mathbf{\beta}^{1}}\) を \(\hat{\mathbf{\beta}^{0}}\) の最尤推定量とみなすことができる。すなわち、\(\hat{\mathbf{\beta}^{1}}\) はスコア関数(対数尤度関数の 1 次導関数)を 0 にする。このとき、上の式は以下のように書き換えられる。

\[ \mathbf{U}(\hat{\mathbf{\beta}^{0}}) = - \mathbf{I}(\hat{\mathbf{\beta}^{1}})(\hat{\mathbf{\beta}^{0}} - \hat{\mathbf{\beta}^{1}}) \]

よって、フィッシャー情報行列が正規性をもつならば、

\[ \hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}} = \mathbf{I}(\hat{\mathbf{\beta}^{1}})^{-1}\mathbf{U}(\hat{\mathbf{\beta}^{0}}) \]

左辺の期待値を求めると、

\[ E[\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}}] = E[\mathbf{I}(\hat{\mathbf{\beta}^{1}})^{-1}\mathbf{U}(\hat{\mathbf{\beta}^{0}})] = \mathbf{I}(\hat{\mathbf{\beta}^{1}})^{-1}E[\mathbf{U}(\hat{\mathbf{\beta}^{0}})] = 0 \]

また、左辺の分散共分散行列を求めると以下のようになる。

\[ E[(\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}})(\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}})^{T}] = \mathbf{I}^{-1}E[\mathbf{UU}^{T}]\mathbf{I}^{-1} = \mathbf{I}(\hat{\mathbf{\beta}^{1}})^{-1} \]

期待値と分散共分散行列が求められた。

統計量の分布

一般に、連続した値 t が存在するとき、t は正規分布に従うものと近似できる。また、t を標準化すれば、t は標準正規化に従う。すなわち、

\[ \frac{t-E[t]}{\sqrt{Var[t]}} \sim N(0, 1)\]

これは以下の式と同じである。

\[ \frac{(t-E[t])^{2}}{Var[t]} \sim \chi ^{2}(1)\]

t が要素数 p を持つベクトル t のとき、同じことを以下のように表現できる。ただし V を分散共分散行列とする。

\[ (\mathbf{t}-E[\mathbf{t}])^{T}\mathbf{V}^{-1}(\mathbf{t})(\mathbf{t}-E[\mathbf{t}]) \sim \chi ^{2}(p) \]

Wald 統計量

ここで統計量 t を統計量 \(\hat{\mathbf{\beta}^{1}}\) に置き換えて、帰無仮説が成り立つならば \(E[\hat{\mathbf{\beta}^{1}}] = \hat{\mathbf{\beta}^{0}}\) である。よって、

\[ (\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}}) \mathbf{I}(\hat{\mathbf{\beta}^{1}})^{-1} (\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}})^{T} \sim \chi^{2}(p) \]

この式の左辺を Wald 統計量という。Wald 検定は、Wald 統計量が自由度 p を持つカイの二乗分布に従うものとして検定を行う。

References

  1. Chen H. Chapter 5. Hypothesis Testing. 2010. PDF
  2. Matthew S. Hypothesis Testing. 2013. PDF
  3. Lecture 16: Score and Wald Tests. PDF
  4. Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.