推定される平均値が信頼区間 CI に含まれるために必要なサンプルサイズ n

信頼区間とサンプルサイズ

平均 μ および分散 σ2 の母集団から n 個の標本を無作為抽出し、それらの標本から母平均を区間推定すると、母平均の推定量は 1-α の確率で次の信頼区間に入る。ただし、s2 は標本から計算される不偏分散である。また、確率変数 z は標準正規分布に従い、zα/2 は、z = α/2 のときの標準正規分布の密度関数の値とする。

\[ \overline{x} - z_{\alpha/2}\frac{s}{\sqrt{n}} \le \mu \le \overline{x} + z_{\alpha/2}\frac{s}{\sqrt{n}} \] \[ s^{2} = \frac{1}{n-1} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \]

このとき、信頼区間 (Confidence interval; CI) の幅は、上限から下限を引くことで、次のようになる。

\[ 2 z_{\alpha/2}\frac{s}{\sqrt{n}} \]

したがって、推定量がある信頼区間 CI に含めるためには、次のような不等式を考えればよい。

\[ CI \ge 2 z_{\alpha/2}\frac{s}{\sqrt{n}} \]

この式を n について解くと、次のようになる。

\[ n \ge \left( \frac{2z_{\frac{\alpha}{2}}}{CI} \right)^{2}s^{2} \]

ここで、例えば母平均の推定において、危険率 5% のもとで(95% の信頼区間を確保する条件下で)、推定値を ±5g の精度に収めるために必要なサンプル数 n は、z0.05/2 = 1.96 により、

\[ n \ge \left( \frac{2 \cdot 1.96}{5 + 5} \right)^{2}s^{2} \]

と計算できる。ただし、不偏分散 s2 を先行研究や予備実験などで求める必要がある。

別の例として、例えば母平均の推定において、危険率 1% のもとで(99% の信頼区間を確保する条件下で)、推定値を ±3g の精度に収めるために必要なサンプル数 n は、z0.05/2 = 1.96 により、

\[ n \ge \left( \frac{2 \cdot 2.58}{3 + 3} \right)^{2}s^{2} \]