指数型分布族
指数型分布族 exponential family は、その確率質量・密度関数が次式のように、指数関数として書き表わせる確率分布である。正規分布、指数分布、ガンマ分布、ポアソン分布、二項分布など、生物統計学でよく目にするほとんどの確率分布が、指数型分布族となる。
\[
\begin{eqnarray}
f(x; \theta) &=& h(x)\exp(\eta(\theta)T(x) - A(\theta)) \\
&=& h(x)g(\theta)\exp(\eta(\theta)T(x)) \\
&=& \exp(\eta(\theta) T(x) -A(\theta) + B(x))
\end{eqnarray}
\]
各関数 h(x)、η(θ)、T(x)、および A(θ) は既知の関数として扱われる。また、関数 η(θ) は自然パラメータ、関数 T(x) は十分統計量とよばれている。
T(x) の期待値
生物統計でよく利用される指数型分布族の確率質量・密度関数は正準形が存在する。正準形とは、関数 f(x;θ)=exp(η(θ)T(x)−A(θ)+B(x)) において、T(x) = x となるときのことをいう。このとき、T(x) の期待値 E[T(x)] を計算できれば、E[T(x)] はそのまま確率変数 X の期待値 E[X] となる。
T(x) の期待値は、確率質量・密度関数 f(x;θ)=exp(η(θ)T(x)−A(θ)+B(x)) の 1 階微分から導き出すことができる。確率質量・密度関数を確率変数の全範囲にわたって積分することで 1 として知られる。この制約条件を利用すると、次のことが成り立つ。
\[ \int f(x;\theta)dx = 1 \]
上式の両辺を θ で微分する。
\[ \frac{d}{d\theta}\int f(x;\theta)dx = \int \frac{df(x;\theta)}{d\theta}dx = 0 \]
よって、
\[
\begin{eqnarray}
& & \int \frac{df(x;\theta)}{d\theta}dx = 0 \\
&\Longleftrightarrow & \int \left(\eta '(\theta)T(x) - A'(\theta) \right)f(x;\theta)dx = 0 \cdots (*)
\end{eqnarray}
\]
が求まる。
ここで、期待値の定義により、T(x) の期待値は次のように書ける。
\[
E(T(x)) = \int T(x)f(x;\theta)dx \\
\]
これを式(*)に代入することで、T(x) の期待値が求まる。
\[
\begin{eqnarray}
(*) &\Longleftrightarrow & \eta '(\theta)E[T(x)] - A'(\theta) = 0\\
&\Longleftrightarrow & E[T(x)] = \frac{A'(\theta)}{\eta '(\theta)}
\end{eqnarray}
\]
T(x) = x のとき、すなわち正準形のとき、T(x) の期待値 E[T(x)] は確率変数 X の期待値 E[X] となる。
\[
E[T(x)] = E[X] = \frac{A'(\theta)}{\eta '(\theta)}
\]
T(x) の分散
T(x) の分散は、\( \int f(x;\theta)dx = 1 \) を 2 階微分から導くことができる。
\[
\begin{eqnarray}
0 &=& \frac{d^{2}}{d\theta ^{2}}\int f(x;\theta) dx \\
&=& \frac{d}{d\theta}\int (\eta'(\theta)T(x)-A'(\theta))f(x;\theta)dx \\
&=& \int \left( \left(\eta''(\theta)T(x)-A''(\theta) \right)f(x;\theta) + \left( \eta'(\theta)T(x)-A'(\theta) \right)^{2}f(x;\theta) \right)dx \\
&=& \eta''(\theta) \int T(x)f(x;\theta)dx - A''(\theta) \int f(x;\theta)dx \\
&& + (\eta'(\theta))^{2}\int (T(x))^{2} f(x;\theta)dx -2\eta'(\theta)A'(\theta)\int T(x)f(x;\theta)dx \\
&& + (A'(\theta))^{2}\int f(x;\theta)dx \\
\end{eqnarray}
\]
\( \int f(x;\theta)dx = 1 \)、\( \int T(x)f(x;\theta)dx = E[T(x)] \)、および \( \int (T(x))^{2}f(x;\theta)dx = E[(T(x))^{2}] \) を上式に代入すると、上式は次のようにあらわすことができる。
\[
\begin{eqnarray}
0 &=& \eta''(\theta)E[T(x)] - A''(\theta) \\
&& + (\eta'(\theta))^{2} E[(T(x))^{2}] -2\eta'(\theta)A'(\theta)E[T(x)]+(A'(\theta))^{2}
\end{eqnarray}
\]
また、上で求めた T(x) の期待値 \(E[T(x)] = \frac{A'(\theta)}{\eta'(\theta)}\) を代入して、E[(T(x)2)] を以下のように表すことができる。
\[
E[(T(x))^{2}] = \frac{(A'(\theta))^{2}\eta'(\theta) -\eta''(\theta)A'(\theta)+\eta'(\theta)A''(\theta) }{\eta'(\theta)^{3}}
\]
よって、T(X) の分散は次のように求まる。
\[
Var[T(x)] = E[(T(x))^{2}] - (E[T(x)])^{2}= \frac{\eta'(\theta)A''(\theta)-\eta''(\theta)A'(\theta) }{\eta'(\theta)^{3}}
\]
T(x) = x のとき、すなわち正準形のとき、T(x) の分散 Var[T(x)] は確率変数 X の分散 Var[X] となる。
\[
Var[T(x)] = Var[X] = \frac{\eta'(\theta)A''(\theta)-\eta''(\theta)A'(\theta) }{\eta'(\theta)^{3}}
\]
References
- Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.
- Exponential family. Wikipedia