ポアソン分布

ポアソン分布は、稀にしか起こらない事象を解析するときによく利用されるモデルである。定数 λ を正の整数とする。「稀にしか起こらない事象」が k 回起きたときの確率分布は次のようになる。

\[ P(X=k) = \frac{\lambda ^{k}}{k!}e^{-\lambda} \]

この確率関数は 二項分布 の確率関数から導ける。ある試行が確率 p (<< 1) で成功するとする。このとき、n 回の試行を行なった時、成功する回数 X は次の確率分布に従う。

\[ \begin{eqnarray} P(X=k) &=& \left( \begin{array}{c}n\\ k\end{array} \right) p^{k}(1-p)^{n-k}\\ &=& \frac{n\cdots (n-k+1)}{k!}\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k}\\ &=& \left(\frac{\lambda^{k}}{k!}\right)\left\{1\cdot\left(1-\frac{1}{n}\right)\cdots\left(1-\frac{k+1}{n}\right)\right\}\left(1-\frac{\lambda}{n}\right)^{-k}\left(1-\frac{\lambda}{n}\right)^{n}\\ &\rightarrow& \frac{\lambda^{k}}{k!}\cdot (1\cdot 1 \cdots)\cdot e^{-\lambda} \quad (n\to\infty) \end{eqnarray} \]

期待値と分散

ポアソン分布の期待値は分散と同じ値である。すなわち、平均値が大きくなると、分散も大きくなる。例えば、各地域で絶滅危惧種の個体数を数えるとき、11 匹、10 匹、13 匹などのように、個体数の平均がが小さいときには、そのばらつきも小さい。これに対して、魚の大群に含まれる魚の個体数を数えるとき、22001 匹、18930 匹、30192 匹などのように、個体数の平均が大きいときには、そのばらつきも大きい。

\[ E(X) = \lambda \] \[ V(X) = \lambda \]

パラメーターの最尤推定

確率変数 X がポアソン分布に従うとき、その確率質量関数は以下のように書くことができる。λ > 0 はポアソン分布のパラメーターである。

\[ f(X;\lambda) = \frac{\lambda ^{X}}{X!}e^{-\lambda} \]

ここで、ポアソン分布に従う観測値 x1, x2, ..., xn がある場合、そのポアソン分布のパラメーターを最尤法で求める例を示す。

n 個の観測値がそれぞれ独立である場合、その同時確率関数は以下のようにかける。

\[ \begin{eqnarray} f(x_{1}, x_{2}, \cdots, x_{n}; \lambda) &=& \prod_{i=1}^{n}f(x_{i};\lambda) \\ &=& \prod_{i=1}^{n}\frac{\lambda ^{x_{i}}}{x_{i}!}e^{-\lambda} \\ &=& \lambda^{\sum_{i=1}^{n}x_{i}} \frac{1}{\prod_{i=1}^{n}x_{i}!} e^{-n\lambda} \end{eqnarray} \]

その対数尤度関数は以下のように表せる。

\[ \begin{eqnarray} l(\lambda; x_{1}, x_{2}, \cdots, x_{n}) &=& \log L(x_{1}, x_{2}, \cdots, x_{n}; \lambda) \\ &=& \log f(x_{1}, x_{2}, \cdots, x_{n}; \lambda)\\ &=& {\sum_{i=1}^{n}x_{i}}\log \lambda + \frac{1}{\prod_{i=1}^{n}x_{i}!} -n\lambda \end{eqnarray} \]

ここで、\(\frac{\partial l}{\partial \lambda} = 0\) を計算すると、

\[ \begin{eqnarray} \frac{\partial l}{\partial \lambda} = 0 &\Leftrightarrow& \sum_{i=1}^{n}x_{i}\frac{1}{\lambda} - n=0 \\ &\Leftrightarrow& \lambda = \frac{1}{n}\sum_{i=1}^{n}x_{i} \end{eqnarray} \]

モーメント母関数

\[ M_{X}(t) = \exp\left(\lambda (e^{t}-1)\right) \]

ポアソン分布の再生性

\[ X_{1} \sim \mathbf{P}(\lambda_{1}) \] \[ X_{2} \sim \mathbf{P}(\lambda_{2}) \]

のとき、Y = X1 + X2 として、確率変数 Y もポアソン分布に従う。

\[ \begin{eqnarray} M_{Y}(t) &=& M_{X_{1}}(t)M_{X_{2}}(t)\\ &=& \exp\left( \lambda_{1}(e^{t}-1) \right) \exp\left( \lambda_{2}(e^{t}-1) \right)\\ &=& \exp\left( (\lambda_{1} + \lambda_{2})(e^{t} - 1) \right)\\ \therefore Y &\sim & \mathbf{P}(\lambda_{1} + \lambda_{2}) \end{eqnarray} \]

ポアソン分布のパラメーターである λ は定数である。そこで、λ をガンマ分布に従うものとした場合、ポアソン分布は負の二項分布になる。(参照:負の二項分布