二項分布

ベルヌーイ試行と二項分布

コイン投げの試行を行ったとき、試行結果はオモテ面かウラ面のどちらかになる(立つというのはなし)。このように試行結果が 2 種類しか取り得ない試行をベルヌーイ試行と呼ぶ。二項分布はベルヌーイ試行から導かれる。

オモテ面の出る確率が p、ウラ面の出る確率が 1 - p のコインがある。このコインを n 回投げたとき、オモテ面の出る回数を確率変数とする。X = k(n 回の試行で k 回がオモテ面)のときの確率 P(X = k) は次のように計算できる。

\[ P(X=k)= {}_{n}C_{k}p^{k}q^{n-k}=\begin{pmatrix}n \\ k \end{pmatrix} p^{k}(1-p)^{n-k} \]

また、このとき確率変数 X(オモテ面が出た回数)は、試行回数 n、確率 p の二項分布に従う。

\[ X \sim \mathbf{B}(n, p) \]

二項分布の期待値及び分散は次のようになる。

\[ E(X) = \mu = np \] \[ V(X) = \sigma^{2} = np(1-p) \]

確率関数と確率母関数

試行回数 n、確率 p の二項分布の確率関数は次のように求められる。

\[ P(X=k)=_{n}C_{k}p^{k}q^{n-k}=\begin{pmatrix}n \\ k \end{pmatrix} p^{k}(1-p)^{n-k} \]

また、確率関数が最大値を取るときの確率変数を x とすると、x は次のようにして求めることができる。

\[ \frac{P(X=x+1)}{P(X=x)} = \frac{n-x}{x+1}\frac{p}{1-p} \] \[ \Leftrightarrow p(X=x+1) =\frac{n-x}{x+1}\frac{p}{1-p}P(X=x) \] \[ \therefore \frac{P(X=x+1)}{P(X=x)} \lesseqgtr 1 \Leftrightarrow \frac{x+1}{n+1} \gtreqless p \] \[ \therefore \max{P(X=x)} = \left[ (n+1)p \right] \]

二項分布の確率母関数は次のようになる。

\[ H_{x}(t) = \left\{ pt + (1-p) \right\}^{n} \]

また、二項分布のモーメント母関数は次のようになる。

\[ M_{x}(t) = \left\{ pe^{t} + (1-p) \right\}^{n} \]

二項分布とゼロの取り扱い

二項分布はカウントデータであるために、場合によってゼロ過剰に存在したり、全くなかったりする。これがデータ分析に悪影響を及ぼすようであれば、以下のように補正を行う。

ゼロトランケートされた二項分布

二項分布はカウントデータであり、0、1、2 などの整数値からなる。一般にはデータ中にゼロが含まれると考えられる。しかし、データを調査する際に、ゼロとなった項を収集しないという規則を設ければ、調査結果のデータの中にゼロが存在しなくなる。このような二項分布をゼロトランケートされた二項分布という。ゼロトランケートされた二項分布の確率関数は次の用になる。

\[ P(Y=y) = P(X = y | X \ge 1) = \frac{_{n}C_{y}p^{y}(1-p)^{n-y}}{1-(1-p)^{n}} \]

ゼロ過剰な二項分布

ゼロが過剰に存在するような二項分布である場合、確率関数は次のように補正する。0 ≤ ω < 1 はゼロの過剰の度合いを表す係数(定数)である。

\[ P(Y=y)=\left\{ \begin{array}{ll} \omega + (1-\omega)(1-p)^{n} & (y=0)\\ (1 - \omega)_{n}C_{y}p^{y}(1-p)^{n-y} & (y\ge 1) \end{array} \right . \]

パラメーターの最尤推定

二項分布は成功か失敗かのいずれかである試行を、n 回独立に行った時に成功した回数 x が従う確率分布である。その確率質量関数は以下のように表される。

\[ f(x; n, p) = \begin{pmatrix}n \\ x \end{pmatrix} p^{x}(1-p)^{n-x} \]

成功回数が x = m 回のとき、成功確率 p を最尤法により求めることができる。

尤度関数は確率質量関数と同じ形であるため、その対数尤度関数は以下のように書ける。

\[ \begin{eqnarray} l(p; n, m) &=& \log L(p; n, m) = \log f(x; n, p) \\ &=& \log \begin{pmatrix}n \\ m \end{pmatrix} p^{m}(1-p)^{n-m} \\ &=& \log \begin{pmatrix}n \\ m \end{pmatrix} + m\log p + (n-m)\log (1-p) \end{eqnarray} \]

このとき、\( \frac{\partial l}{\partial p} = 0\) を考えると、

\[ \begin{eqnarray} \frac{\partial l}{\partial p} = 0 & \Leftrightarrow & m\frac{1}{p} - (n-m)\frac{1}{1-p} = 0\\ & \Leftrightarrow & p = \frac{m}{n} \end{eqnarray} \]

二項分布と正規分布の近似性

中心極限定理

n 個の確率変数 Xi (i = 1, 2, ..., n) が、それぞれ独立に、平均 μ と分散 σ2 の確率分布に従うとき、それらの和を Y とすると(Xi の分布は正規分布以外でも可)

\[ Y = X_{1} + X_{2} + \cdots + X_{n}\]

確率変数 Y は平均 nμ と分散 nσ2 の正規分布に従う。

\[ Y \sim \mathbf{N}(n\mu, n\sigma^{2})\]

このことを中心極限定理という。

ラプラスの定理

中心極限定理に関連して、「二項分布を正規分布に近似できる」というラプラスの定理の定理がある。

ベルヌーイ試行の結果を表す確率変数を W (= 0, 1) とする。 W は平均 p と分散 p(1-p) のベルヌーイ分布に従うものとする。 ここで、n 回のベルヌーイ試行を行ったとき、得られた n 個の確率変数 W の和を X とする。

\[ X = W_{1} + W_{2} + \cdots + W_{n}\]

このとき、中心極限定理により、確率変数 X は、平均 nμ と分散 nσ2 の正規分布に従う。一方、確率変数 X そのものは、n 回のベルヌーイ試行結果を表す確率変数であるため、二項分布である。つまり、これは正規分布と二項分布が近似できることを意味する。

逆正弦変換

確率変数 X が試行回数 n、確率 p の二項分布に従うとき、X を逆正弦変換することで、正規分布に近似させることができる。

\[ X \sim \mathbf{B}(n, p) \] \[ sin^{-1}\sqrt{\frac{X}{n}} \sim \mathbf{N}(sin^{-1}\sqrt{p}, \frac{1}{4n}) \]

二項分布の拡張

二項分布と似ているような分布を以下に取り上げる。

分布二項分布との違い
負の二項分布確率 p でオモテがでるコインを利用して n 回のコイン投げ試行を行った結果、オモテ面の出る回数 k が二項分布に従う。これに対して、確率 p で、オモテ面が k 回出るまでの試行回数 n が負の二項分布に従う。
超幾何分布赤が N 個、青が M 個の玉の入った袋から1 個 取り出し、色を記録してから袋に戻します。このような復元抽出を n 回行った時、赤玉が得られる個数は二項分布に従う。しかし、玉を取り出してから、元に戻さない非復元抽出の場合は、赤玉が得られる個数が超幾何分布に従う。
ベータ二項分布 確率 p でオモテがでるコインを利用して n 回のコイン投げ試行を行った結果、 オモテ面の出る回数 k が二項分布に従う。これに対して、確率 p をベータ分布に従うと変数としたとき、オモテ面の出る回数 k はベータ二項分布に従う。
ポアソン分布 確率 p でオモテがでるコインを利用して n 回のコイン投げ試行を行った結果、 オモテ面の出る回数 k が二項分布に従う。これに対して、試行回数 n を無限としたとき、オモテ面の出る回数 k はポアソン分布に従う。