超幾何分布 | 有限集団における非復元抽出の試行から導かれる分布

超幾何分布は、有限集団における非復元抽出の試行から導かれる分布である。超幾何分布を考えるとき、N 個の要素を持つ有限母集団に、特徴 m を示す要素数は M 個とし、特徴 m を示さない要素数を N-M 個と仮定する。

まず、この有限母集団から復元抽出試行の場合を考える。特徴 m を示す要素数が抽出される確率は p = (M/N) になる。1 回の復元抽出を行ったとき、抽出される要素数は特徴 m を示すか、示さないかのどちらかである。つまり、コイン投げと同じようなベルヌーイ試行と同じである。復元抽出試行であるから、n 回行なっても、確率 p は不変。この特徴から、抽出した n 個の要素のうち特徴 m を示す要素の数は、試行回数 n、確率 p の二項分布に従う。

これに対して、n 回の非復元抽出を行った場合、n 個体に含まれる特徴 m を示す要素の数は、超幾何分布に従う。例えば、n 回の試行の 1 回目のとき、特徴 m を示す要素が抽出される確率 p は (M/N) で求まりる。2 回目の試行では、特徴 m が抽出される確率 p は (M-1)/(N-1) または M/(N-1) である。n 回の試行を行った後に、抽出された要素のうち特徴 m を示す要素の数が X としたとき、X は超幾何分布に従う。

\[ X \sim \mathbf{H}(n, M, N) \]

超幾何分布の確率関数は次のようになる。

\[ P(X=k) = \frac{\left( \begin{array}{c} M \\ k \end{array} \right)\left(\begin{array}{c} N-M \\ n-k\end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)} \]

超幾何分布の期待値および分散。

\[ \begin{eqnarray} E(X) &=& \frac{nM}{N}\\ V(Y) &=& n\frac{N-n}{N-1}\frac{M}{N}\left( 1-\frac{M}{N}\right) \end{eqnarray} \]

p = M/N としたとき、期待値と分散は次のように書き表すことができる。このことから、超幾何分布は、期待値は二項分布と同じであるが、分散が二項分布に比べ小さい特徴を持つ。

\[ \begin{eqnarray} E(X) &=& np\\ V(Y) &=& \frac{N-n}{N-1}np(1-p) \end{eqnarray} \]