フィッシャー情報量 | 最尤法,スコア関数,フィッシャー情報量の関係

フィッシャー情報量は、確率変数がパラメーターに関して持つ情報量のことである。定義式を説明するためには尤度関数の説明から始める必要がある。

定義

確率変数 X がパラメーター θ を持つ分布関数 f の標本であるとき、その尤度関数 L は以下のように書ける。

\[ L(\theta; x) = f(x ; \theta) \]

尤度関数を対数化したものを対数尤度関数という。

\[ l(\theta; x) = \log L(\theta; x) \]

対数尤度関数の 1 次微分をスコア関数 U という。

\[ U(\theta; x) = \frac{\partial l(\theta; x)}{\partial \theta}\]

フィッシャー情報量はスコア関数の 2 次のモーメント（すなわち、分散）として定義される

\[ I_{X}(\theta) = E[U(\theta; x)^{2}] = Var\left(U(\theta; x)\right) \]

スコア関数の性質

スコア関数の定義は以下のように式変換することができる。

\[ U(\theta;x) = \frac{\partial}{\partial \theta} \log L(\theta; x) = \frac{1}{L(\theta;x)} \frac{\partial}{\partial \theta} L(\theta;x) \]

スコア関数の期待値

\[ \begin{eqnarray} E[U(\theta;x)] &=& \int_{-\infty}^{\infty}U(\theta;x) \cdot f(x;\theta )dx \\ &=& \int_{-\infty}^{\infty}\frac{1}{L(\theta;x)}\frac{\partial}{\partial \theta} L(\theta;x) \cdot f(x;\theta)dx \\ &=& \int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} L(\theta;x)dx \\ &=& \frac{\partial}{\partial \theta} \int_{-\infty}^{\infty} L(\theta;x)dx \\ &=& \frac{\partial}{\partial \theta} 1 = 0 \end{eqnarray} \]

スコア関数の分散

スコア関数の分散はフィッシャー情報量として定義されている。スコア関数の分散は次のように式変換することで、尤度関数の偏微分として表すことができる。

\[ \begin{eqnarray} Var[U(\theta; x)] &=& E[(U(\theta; x) - E[U(\theta; x)])^{2}] \\ &=& E[U(\theta; x)^{2}] - (E[U(\theta; x)])^{2} \\ &=& E[U(\theta; x)^{2}] \\ &=& E\left[\left( \frac{\partial}{\partial \theta} \log L(\theta; x) \right)^{2}\right] \end{eqnarray} \]

この式に対してさらに式変換を行うことができる。

まず、対数尤度関数を θ で 2 回微分する場合を考える。

\[ \begin{eqnarray} \frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x) &=& \frac{\partial}{\partial \theta} \left( \frac{1}{L(\theta; x)} \frac{\partial}{\partial \theta} L(\theta; x) \right) \\ &=& \frac{ \frac{\partial ^{2}}{\partial \theta ^{2}}L(\theta; x)\cdot L(\theta; x) - \frac{\partial}{\partial \theta}L(\theta; x)\cdot \frac{\partial}{\partial \theta}L(\theta; x)}{ (L(\theta; x))^2 } \\ &=& \frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} - \left(\frac{\frac{\partial}{\partial \theta}L(\theta; x)}{L(\theta; x)} \right)^{2}\\ &=& \frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} - \left(\frac{\partial}{\partial \theta}\log L(\theta; x) \right)^{2}\\ \end{eqnarray} \]

この結果をスコア関数の分散に代入し、式変更を行う。

\[ \begin{eqnarray} E\left[\left( \frac{\partial}{\partial \theta} \log L(\theta; x) \right)^{2}\right] &=& E\left[\frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} \right] - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\ &=& \int_{-\infty}^{\infty}\frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} f(x;\theta)dx - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\ &=& \int_{-\infty}^{\infty}\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x) dx - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\ &=& \frac{\partial ^{2}}{\partial \theta ^{2}} \int_{-\infty}^{\infty} L(\theta; x) dx - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\ &=& \frac{\partial ^{2}}{\partial \theta ^{2}} 1 - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\ &=& - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \end{eqnarray} \]

つまり、スコア関数の分散（フィッシャー情報量）は次のように、対数尤度関数の 2 次導関数の期待値として表すこともできる。

\[ \begin{eqnarray} I_{X}(\theta) = Var[U(\theta ;x)] = E\left[\left( \frac{\partial}{\partial \theta} \log L(\theta; x) \right)^{2}\right] = - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \end{eqnarray} \]

フィッシャー情報量の性質

スコア関数の θ が複数ある場合、フィッシャー情報量は行列として表すことができる。θ^T = (θ₁, θ₂, ..., θ_n) としたとき、フィッシャー情報行列は以下のように書ける。

\[ I_{X}(\mathbf{\theta}) = E\left[ \frac{\partial}{\partial \theta}l(\mathbf{\theta};X)\frac{\partial}{\partial \theta ^{T}} l(\mathbf{\theta};X) \right] \]

その (i, j) 成分は以下のように計算される。

\[ (I_{X}(\mathbf{\theta}))_{i,j} = E\left[ \frac{\partial}{\partial \theta_{i}}l(\mathbf{\theta};X)\frac{\partial}{\partial \theta_{j}} l(\mathbf{\theta};X) \right] \]

1 セットのデータから 1 セットのパラメータの推定値 \(\hat{\theta}\) を計算（推定）できる。実験回数を増やせば、パラメータの推定値 \(\hat{\theta}\) を複数セット計算できる。つまり、推定値の \(\hat{\theta}\) は分散を持つ。一般に、実験回数を増やせば分散を小さくすることできるが、その下限が存在する。このことを説明しているのはクラメール・ラオ不等式である。

\[ Var(\hat{\theta}) \ge \frac{1}{I_{X}(\theta)} \]

References

フィッシャー情報量. Wikipedia
フィッシャー情報量. WATAPEDIA
Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.