フィッシャー情報量は、確率変数がパラメーターに関して持つ情報量のことである。定義式を説明するためには尤度関数の説明から始める必要がある。
定義
確率変数 X がパラメーター θ を持つ分布関数 f の標本であるとき、その尤度関数 L は以下のように書ける。
\[ L(\theta; x) = f(x ; \theta) \]
尤度関数を対数化したものを対数尤度関数という。
\[ l(\theta; x) = \log L(\theta; x) \]
対数尤度関数の 1 次微分をスコア関数 U という。
\[ U(\theta; x) = \frac{\partial l(\theta; x)}{\partial \theta}\]
フィッシャー情報量はスコア関数の 2 次のモーメント(すなわち、分散)として定義される
\[ I_{X}(\theta) = E[U(\theta; x)^{2}] = Var\left(U(\theta; x)\right) \]
スコア関数の性質
スコア関数の定義は以下のように式変換することができる。
\[
U(\theta;x) = \frac{\partial}{\partial \theta} \log L(\theta; x) = \frac{1}{L(\theta;x)} \frac{\partial}{\partial \theta} L(\theta;x)
\]
スコア関数の期待値
\[
\begin{eqnarray}
E[U(\theta;x)] &=& \int_{-\infty}^{\infty}U(\theta;x) \cdot f(x;\theta )dx \\
&=& \int_{-\infty}^{\infty}\frac{1}{L(\theta;x)}\frac{\partial}{\partial \theta} L(\theta;x) \cdot f(x;\theta)dx \\
&=& \int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} L(\theta;x)dx \\
&=& \frac{\partial}{\partial \theta} \int_{-\infty}^{\infty} L(\theta;x)dx \\
&=& \frac{\partial}{\partial \theta} 1 = 0
\end{eqnarray}
\]
スコア関数の分散
スコア関数の分散はフィッシャー情報量として定義されている。スコア関数の分散は次のように式変換することで、尤度関数の偏微分として表すことができる。
\[
\begin{eqnarray}
Var[U(\theta; x)] &=& E[(U(\theta; x) - E[U(\theta; x)])^{2}] \\
&=& E[U(\theta; x)^{2}] - (E[U(\theta; x)])^{2} \\
&=& E[U(\theta; x)^{2}] \\
&=& E\left[\left( \frac{\partial}{\partial \theta} \log L(\theta; x) \right)^{2}\right]
\end{eqnarray}
\]
この式に対してさらに式変換を行うことができる。
まず、対数尤度関数を θ で 2 回微分する場合を考える。
\[
\begin{eqnarray}
\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x) &=& \frac{\partial}{\partial \theta} \left( \frac{1}{L(\theta; x)} \frac{\partial}{\partial \theta} L(\theta; x) \right) \\
&=& \frac{ \frac{\partial ^{2}}{\partial \theta ^{2}}L(\theta; x)\cdot L(\theta; x) - \frac{\partial}{\partial \theta}L(\theta; x)\cdot \frac{\partial}{\partial \theta}L(\theta; x)}{ (L(\theta; x))^2 } \\
&=& \frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} - \left(\frac{\frac{\partial}{\partial \theta}L(\theta; x)}{L(\theta; x)} \right)^{2}\\
&=& \frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} - \left(\frac{\partial}{\partial \theta}\log L(\theta; x) \right)^{2}\\
\end{eqnarray}
\]
この結果をスコア関数の分散に代入し、式変更を行う。
\[
\begin{eqnarray}
E\left[\left( \frac{\partial}{\partial \theta} \log L(\theta; x) \right)^{2}\right] &=& E\left[\frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} \right] - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\
&=& \int_{-\infty}^{\infty}\frac{\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x)}{L(\theta; x)} f(x;\theta)dx - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\
&=& \int_{-\infty}^{\infty}\frac{\partial ^{2}}{\partial \theta ^{2}} L(\theta; x) dx - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\
&=& \frac{\partial ^{2}}{\partial \theta ^{2}} \int_{-\infty}^{\infty} L(\theta; x) dx - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\
&=& \frac{\partial ^{2}}{\partial \theta ^{2}} 1 - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right] \\
&=& - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right]
\end{eqnarray}
\]
つまり、スコア関数の分散(フィッシャー情報量)は次のように、対数尤度関数の 2 次導関数の期待値として表すこともできる。
\[
\begin{eqnarray}
I_{X}(\theta) = Var[U(\theta ;x)]
= E\left[\left( \frac{\partial}{\partial \theta} \log L(\theta; x) \right)^{2}\right]
= - E\left[\frac{\partial ^{2}}{\partial \theta ^{2}} \log L(\theta; x)\right]
\end{eqnarray}
\]
フィッシャー情報量の性質
スコア関数の θ が複数ある場合、フィッシャー情報量は行列として表すことができる。θT = (θ1, θ2, ..., θn) としたとき、フィッシャー情報行列は以下のように書ける。
\[
I_{X}(\mathbf{\theta}) = E\left[ \frac{\partial}{\partial \theta}l(\mathbf{\theta};X)\frac{\partial}{\partial \theta ^{T}} l(\mathbf{\theta};X) \right]
\]
その (i, j) 成分は以下のように計算される。
\[
(I_{X}(\mathbf{\theta}))_{i,j} = E\left[ \frac{\partial}{\partial \theta_{i}}l(\mathbf{\theta};X)\frac{\partial}{\partial \theta_{j}} l(\mathbf{\theta};X) \right]
\]
1 セットのデータから 1 セットのパラメータの推定値 \(\hat{\theta}\) を計算(推定)できる。実験回数を増やせば、パラメータの推定値 \(\hat{\theta}\) を複数セット計算できる。つまり、推定値の \(\hat{\theta}\) は分散を持つ。一般に、実験回数を増やせば分散を小さくすることできるが、その下限が存在する。このことを説明しているのはクラメール・ラオ不等式である。
\[
Var(\hat{\theta}) \ge \frac{1}{I_{X}(\theta)}
\]
References
- フィッシャー情報量. Wikipedia
- フィッシャー情報量. WATAPEDIA
- Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.