小サンプルサイズの平均と分散から計算される t 値は t 分布に従う

t 分布

X1, X2, ..., Xn を、平均 μ および分散 σ2 の正規分布に従う確率変数とする。このとき、標本平均を \(\overline{X}\)、標本不偏分散を \(S^{2}\) とする。

\[ \overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i} \] \[ S^{2} = \frac{1}{n-1}\sum_{i=1}^{n}\left(X_{i} - \overline{X}\right)^{2} \]

ここで、標本平均と母平均の差を測るために新しい確率変数 T を導入する。新しい確率変数を、標本平均および標本不偏分散を用いて次のようにする。(新しい確率変数 T の式は、粗雑に次のように置いたのではなく、裏に大数の法則・中央極限定理という思想があり、それをもとに次式のように置いてある。)

\[ T = \frac{(\overline{x} - \mu)}{\frac{S}{\sqrt{n}}} \]

n が十分に大きければ、中心極限定理により T は、平均 0 および分散 1 の正規分布に従うことが知られている。

\[ T \sim \mathcal{N}(0, 1) \]

これに対して、n が小さいとき、T は自由度 ν = n - 1 の次式で表せる分布に従うことが、W.S. Gosset および R.A. Fisher によって示された。のちに、この分布は t 分布と呼ばれるようになった。

\[ T \sim t(\nu) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)}\left(1+\frac{t^{2}}{\nu}\right)^{-\frac{\nu + 1}{2}} \]

これにより、n が十分に大きくないときは t 分布を利用して、母平均の信頼区間を求めることができる。サンプルサイズが大きい時の母平均の区間推定と同様な手順で、小サンプルサイズの場合、母平均は確率 α で次の範囲内に収まる。

\[ P\left( \overline{x} - t_{\alpha/2}\frac{s}{\sqrt{n}} \le \mu \le \overline{x} + t_{\alpha/2}\frac{s}{\sqrt{n}} \right) = 1 - \alpha \] \[ s^{2} = \frac{1}{n-1} \sum_{i=1}^{n}(x_{i} - \overline{x})^{2} \]