ベルヌーイ試行と二項分布
コイン投げの試行を行ったとき、試行結果はオモテ面かウラ面のどちらかになる(立つというのはなし)。このように試行結果が 2 種類しか取り得ない試行をベルヌーイ試行と呼ぶ。二項分布はベルヌーイ試行から導かれる。
オモテ面の出る確率が p、ウラ面の出る確率が 1 - p のコインがある。このコインを n 回投げたとき、オモテ面の出る回数を確率変数とする。X = k(n 回の試行で k 回がオモテ面)のときの確率 P(X = k) は次のように計算できる。
また、このとき確率変数 X(オモテ面が出た回数)は、試行回数 n、確率 p の二項分布に従う。
二項分布の期待値及び分散は次のようになる。
確率関数と確率母関数
試行回数 n、確率 p の二項分布の確率関数は次のように求められる。
また、確率関数が最大値を取るときの確率変数を x とすると、x は次のようにして求めることができる。
二項分布の確率母関数は次のようになる。
また、二項分布のモーメント母関数は次のようになる。
二項分布とゼロの取り扱い
二項分布はカウントデータであるために、場合によってゼロ過剰に存在したり、全くなかったりする。これがデータ分析に悪影響を及ぼすようであれば、以下のように補正を行う。
ゼロトランケートされた二項分布
二項分布はカウントデータであり、0、1、2 などの整数値からなる。一般にはデータ中にゼロが含まれると考えられる。しかし、データを調査する際に、ゼロとなった項を収集しないという規則を設ければ、調査結果のデータの中にゼロが存在しなくなる。このような二項分布をゼロトランケートされた二項分布という。ゼロトランケートされた二項分布の確率関数は次の用になる。
ゼロ過剰な二項分布
ゼロが過剰に存在するような二項分布である場合、確率関数は次のように補正する。0 ≤ ω < 1 はゼロの過剰の度合いを表す係数(定数)である。
パラメーターの最尤推定
二項分布は成功か失敗かのいずれかである試行を、n 回独立に行った時に成功した回数 x が従う確率分布である。その確率質量関数は以下のように表される。
成功回数が x = m 回のとき、成功確率 p を最尤法により求めることができる。
尤度関数は確率質量関数と同じ形であるため、その対数尤度関数は以下のように書ける。
このとき、\( \frac{\partial l}{\partial p} = 0\) を考えると、
二項分布と正規分布の近似性
中心極限定理
n 個の確率変数 Xi (i = 1, 2, ..., n) が、それぞれ独立に、平均 μ と分散 σ2 の確率分布に従うとき、それらの和を Y とすると(Xi の分布は正規分布以外でも可)
確率変数 Y は平均 nμ と分散 nσ2 の正規分布に従う。
このことを中心極限定理という。
ラプラスの定理
中心極限定理に関連して、「二項分布を正規分布に近似できる」というラプラスの定理の定理がある。
ベルヌーイ試行の結果を表す確率変数を W (= 0, 1) とする。 W は平均 p と分散 p(1-p) のベルヌーイ分布に従うものとする。 ここで、n 回のベルヌーイ試行を行ったとき、得られた n 個の確率変数 W の和を X とする。
このとき、中心極限定理により、確率変数 X は、平均 nμ と分散 nσ2 の正規分布に従う。一方、確率変数 X そのものは、n 回のベルヌーイ試行結果を表す確率変数であるため、二項分布である。つまり、これは正規分布と二項分布が近似できることを意味する。
逆正弦変換
確率変数 X が試行回数 n、確率 p の二項分布に従うとき、X を逆正弦変換することで、正規分布に近似させることができる。
二項分布の拡張
二項分布と似ているような分布を以下に取り上げる。
分布 | 二項分布との違い |
負の二項分布 | 確率 p でオモテがでるコインを利用して n 回のコイン投げ試行を行った結果、オモテ面の出る回数 k が二項分布に従う。これに対して、確率 p で、オモテ面が k 回出るまでの試行回数 n が負の二項分布に従う。 |
超幾何分布 | 赤が N 個、青が M 個の玉の入った袋から1 個 取り出し、色を記録してから袋に戻します。このような復元抽出を n 回行った時、赤玉が得られる個数は二項分布に従う。しかし、玉を取り出してから、元に戻さない非復元抽出の場合は、赤玉が得られる個数が超幾何分布に従う。 |
ベータ二項分布 | 確率 p でオモテがでるコインを利用して n 回のコイン投げ試行を行った結果、 オモテ面の出る回数 k が二項分布に従う。これに対して、確率 p をベータ分布に従うと変数としたとき、オモテ面の出る回数 k はベータ二項分布に従う。 |
ポアソン分布 | 確率 p でオモテがでるコインを利用して n 回のコイン投げ試行を行った結果、 オモテ面の出る回数 k が二項分布に従う。これに対して、試行回数 n を無限としたとき、オモテ面の出る回数 k はポアソン分布に従う。 |