帰無仮説と対立仮説
Wald 検定は 2 つのモデルそれぞれの最尤推定量の差を利用した検定である。2 つのモデルは、パラメーターを多く持つ full model とより少数のパラメーターをしか持たない reduced model となる。full model のパラメーターの最尤推定量を \(\hat{\mathbf{\beta}^{0}}\) とし、reduced model のパラメーターの最尤推定量を \(\hat{\mathbf{\beta}^{1}}\) とすると、その差は \(\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}}\) と書ける。差が 0 になれば full model と reduced model は同じモデルであると判定し、reduced model に組み込まれた少数のパラメーターは重要なパラメーターではないことを意味する。
モデル構築する際に、考えられるあらゆるのパラメーターの集合を Θ とし、full model に組み込まれているパラメーターの集合を Θ0 とし、reduced model に組み込まれているパラメーターの集合を Θ1 とすると、各集合は以下の関係を持つ。
このとき full model のパラメーターベクトルを β0 とし、reduced model のパラメーターを β1 とすると、帰無仮説および対立仮説は以下のように表すことができる。
Wald 統計量
期待値と分散共分散行列
full model および reduced model の最尤推定量をそれぞれ \(\hat{\mathbf{\beta}^{1}}\)、\(\hat{\mathbf{\beta}^{0}}\) とする。両者の差 \(\hat{\mathbf{\beta}^{1}} - \hat{\mathbf{\beta}^{0}}\) について見ていく。
対数尤度関数の 1 次導関数、すなわちスコア関数 U(β) を \(\mathbf{\beta} = \hat{\mathbf{\beta}}\) のまわりでテイラー展開し、最初の 2 項だけを取り出す。
ここで、\(\mathbf{\beta} = \hat{\mathbf{\beta}^{0}}\)、\(\hat{\mathbf{\beta}} = \hat{\mathbf{\beta}^{1}}\) を上式に代入する。
帰無仮説が正しければ、\(\hat{\mathbf{\beta}^{1}}\) を \(\hat{\mathbf{\beta}^{0}}\) の最尤推定量とみなすことができる。すなわち、\(\hat{\mathbf{\beta}^{1}}\) はスコア関数(対数尤度関数の 1 次導関数)を 0 にする。このとき、上の式は以下のように書き換えられる。
よって、フィッシャー情報行列が正規性をもつならば、
左辺の期待値を求めると、
また、左辺の分散共分散行列を求めると以下のようになる。
期待値と分散共分散行列が求められた。
統計量の分布
一般に、連続した値 t が存在するとき、t は正規分布に従うものと近似できる。また、t を標準化すれば、t は標準正規化に従う。すなわち、
これは以下の式と同じである。
t が要素数 p を持つベクトル t のとき、同じことを以下のように表現できる。ただし V を分散共分散行列とする。
Wald 統計量
ここで統計量 t を統計量 \(\hat{\mathbf{\beta}^{1}}\) に置き換えて、帰無仮説が成り立つならば \(E[\hat{\mathbf{\beta}^{1}}] = \hat{\mathbf{\beta}^{0}}\) である。よって、
この式の左辺を Wald 統計量という。Wald 検定は、Wald 統計量が自由度 p を持つカイの二乗分布に従うものとして検定を行う。