生物統計学で利用するほとんどの確率分布は、指数型分布族に含まれる

指数型分布族

指数型分布族

指数型分布族 exponential family は、その確率質量・密度関数が指数関数として表せるような確率分布を指す。そのの確率質量・密度関数は以下のように表すことができる。正規分布、指数分布、ガンマ分布、ポアソン分布、二項分布など、生物統計学でよく目にするほとんどの確率分布が、指数型分布族となる。

\[ \begin{eqnarray} f(x; \theta) &=& h(x)\exp(\eta(\theta)T(x) - A(\theta)) \\ &=& h(x)g(\theta)\exp(\eta(\theta)T(x)) \\ &=& \exp(\eta(\theta) T(x) -A(\theta) + B(x)) \end{eqnarray} \]

各関数 h(x)、η(θ)、T(x)、および A(θ) は既知の関数として扱われる。関数 η(θ) は自然パラメータ、関数 T(x) は十分統計量とよばれている。

T(x) の期待値

生物統計でよく利用される指数型分布族の確率質量・密度関数は正準形が存在する。正準形とは、関数 f(x;θ)=exp(η(θ)T(x)−A(θ)+B(x)) において、T(x) = x となるときのことをいう。このとき、T(x) の期待値 E[T(x)] を計算できれば、E[T(x)] はそのまま確率変数 X の期待値 E[X] となる。

T(x) の期待値は、確率質量・密度関数 f(x;θ)=exp(η(θ)T(x)−A(θ)+B(x)) の 1 階微分から導き出すことができる。確率質量・密度関数を確率変数の全範囲にわたって積分することで 1 として知られる。この制約条件を利用すると、次のことが成り立つ。

\[ \int f(x;\theta)dx = 1 \]

上式の両辺を θ で微分する。

\[ \frac{d}{d\theta}\int f(x;\theta)dx = \int \frac{df(x;\theta)}{d\theta}dx = 0 \]

よって、

\[ \begin{eqnarray} & & \int \frac{df(x;\theta)}{d\theta}dx = 0 \\ &\Longleftrightarrow & \int \left(\eta '(\theta)T(x) - A'(\theta) \right)f(x;\theta)dx = 0 \cdots (*) \end{eqnarray} \]

が求まる。

ここで、期待値の定義により、T(x) の期待値は次のように書ける。

\[ E(T(x)) = \int T(x)f(x;\theta)dx \\ \]

これを式(*)に代入することで、T(x) の期待値が求まる。

\[ \begin{eqnarray} (*) &\Longleftrightarrow & \eta '(\theta)E[T(x)] - A'(\theta) = 0\\ &\Longleftrightarrow & E[T(x)] = \frac{A'(\theta)}{\eta '(\theta)} \end{eqnarray} \]

T(x) = x のとき、すなわち正準形のとき、T(x) の期待値 E[T(x)] は確率変数 X の期待値 E[X] となる。

\[ E[T(x)] = E[X] = \frac{A'(\theta)}{\eta '(\theta)} \]

T(x) の分散

T(x) の分散は、\( \int f(x;\theta)dx = 1 \) を 2 回微分して導くことができる。

\[ \begin{eqnarray} 0 &=& \frac{d^{2}}{d\theta ^{2}}\int f(x;\theta) dx \\ &=& \frac{d}{d\theta}\int (\eta'(\theta)T(x)-A'(\theta))f(x;\theta)dx \\ &=& \int \left( \left(\eta''(\theta)T(x)-A''(\theta) \right)f(x;\theta) + \left( \eta'(\theta)T(x)-A'(\theta) \right)^2{2}f(x;\theta) \right)dx \\ &=& \eta''(\theta) \int T(x)f(x;\theta)dx - A''(\theta) \int f(x;\theta)dx \\ && + (\eta'(\theta))^{2}\int (T(x))^{2} f(x;\theta)dx -2\eta'(\theta)A'(\theta)\int T(x)f(x;\theta)dx \\ && + (A'(\theta))^{2}\int f(x;\theta)dx \\ \end{eqnarray} \]

\( \int f(x;\theta)dx = 1 \)、\( \int T(x)f(x;\theta)dx = E[T(x)] \)、および \( \int (T(x))^{2}f(x;\theta)dx = E[(T(x))^{2}] \) を上式に代入すると、上式は次のようにあらわすことができる。

\[ \begin{eqnarray} 0 &=& \eta''(\theta)E[T(x)] - A''(\theta) \\ && + (\eta'(\theta))^{2} E[(T(x))^{2}] -2\eta'(\theta)A'(\theta)E[T(x)]+(A'(\theta))^{2} \end{eqnarray} \]

また、上で求めた T(x) の期待値 \(E[T(x)] = \frac{A'(\theta)}{\eta'(\theta)}\) を代入して、E[(T(x)2)] を以下のように表すことができる。

\[ E[(T(x))^{2}] = \frac{(A'(\theta))^{2}\eta'(\theta) -\eta''(\theta)A'(\theta)+\eta'(\theta)A''(\theta) }{\eta'(\theta)^{3}} \]

よって、T(X) の分散は次のように求まる。

\[ Var[T(x)] = E[(T(x))^{2}] - (E[T(x)])^{2}= \frac{\eta'(\theta)A''(\theta)-\eta''(\theta)A'(\theta) }{\eta'(\theta)^{3}} \]

T(x) = x のとき、すなわち正準形のとき、T(x) の分散 Var[T(x)] は確率変数 X の分散 Var[X] となる。

\[ Var[T(x)] = Var[X] = \frac{\eta'(\theta)A''(\theta)-\eta''(\theta)A'(\theta) }{\eta'(\theta)^{3}} \]

References

  1. Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.
  2. Exponential family. Wikipedia