分散は標本分散 (sample variance) と不偏分散 (unbiased variance) の 2 種類がある。標本分散は標本から計算した分散であり、母集団に比べ標本数が少ない時は、標本分散が母分散よりも小さくなる。そこで、標本分散が母分散に等しくなるように補正したものを不偏分散という。統計の分野では不偏分散を用いられることが多い。
n 個の標本 x1, x2, ..., xn があり、その平均値を \(\bar{X}\) としたとき、標本分散は次のように求められる。
\[ s^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2 \]
一方、不偏分散は次のように、n ではなく、n-1 で割ることで求められる。
\[ \hat{\sigma}^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{X} )^2 \]
標本分散と母分散の誤差
標本分散と母分散の間に存在する誤差を計算する。まず、標本分散の定義式に \(x_{i}-\bar{X}=x_{i}-\mu -(\bar{X}-\mu)\) を代入し、式変形する。
\[
\begin{eqnarray}
s^{2} &=& \frac{1}{n}\sum (x_{i}-\bar{X})^{2} \\
&=& \frac{1}{n}\sum \left( (x_{i}-\mu)^{2} -2(x_{i}-\mu )(\bar{X}-\mu )+(\bar{X}-\mu )^{2} \right) \\
&=& \frac{1}{n}\sum (x_{i} - \mu)^{2} -\frac{1}{n}\sum \left(2(\bar{X}-\mu ) (x_{i}-\mu)\right) + \frac{1}{n}\sum (\bar{X}-\mu)^{2} \\
&=& \frac{1}{n}\sum (x_{i} - \mu)^{2} -\frac{2(\bar{X}-\mu )}{n}\sum (x_{i}-\mu) + \frac{(\bar{X}-\mu)^{2}}{n}\sum 1\\
&=& \frac{1}{n}\sum (x_{i} - \mu)^{2} -\frac{2(\bar{X}-\mu )}{n}(x_{1}-\mu + x_{2}-\mu + \cdots + x_{n}-\mu) + \frac{(\bar{X}-\mu)^{2}}{n}n \\
&=& \frac{1}{n}\sum (x_{i} - \mu)^{2} -2(\bar{X}-\mu )\frac{1}{n}(n\bar{X} - n\mu) + (\bar{X}-\mu)^{2} \\
&=& \frac{1}{n}\sum (x_{i} - \mu)^{2} -2(\bar{X}-\mu )^{2}+ (\bar{X}-\mu)^{2} \\
&=& \frac{1}{n}\sum (x_{i} - \mu)^{2} -(\bar{X}-\mu )^{2}
\end{eqnarray}
\]
このとき、標本分散の期待値を求めると、次のようになる。
\[ E[s^{2}]=\frac{1}{n}\sum E\left[ (x_{i}-\mu)^{2}\right] - E\left[ (\bar{X}-\mu)^{2}\right] \]
一方、n 個のデータが平均 μ、分散 σ2 である母集団に属するので、このとき、分散は次のように計算することもできる。
\[ \sigma^{2}=E\left[ (x_{i}-\mu)^{2} \right] \]
そこで、標本分散の期待値に上式を代入すると、以下のようになる。
\[
\begin{eqnarray}
E[s^{2}] &=& \frac{1}{n}\sum \sigma^{2} - E\left[ (\bar{X}-\mu)^{2} \right] \\
&=& \sigma^{2} - E\left[ (\bar{X}-\mu)^{2} \right]
\end{eqnarray}
\]
すなわち、標本分散(の期待値)は母分散に比べ \(E\left[ (\bar{X}-\mu)^{2} \right]\) だけ小さい。標本分散は母分散と同等ではないので、「不偏性」がない。
不偏分散
標本分散の期待値は、母分散に比べ \(E\left[ (\bar{X}-\mu)^{2} \right]\) だけ小さい。そのため、標本分散にこの誤差を補正すれば、標本のデータを利用して、母分散を推定できるようになる。
平均 μ、分散 σ2 の母集団ついては、次の関係が成り立つ。
\[
\begin{eqnarray}
E\left[ (\bar{X}-\mu )^{2}\right] &=& E \left[ \left( \frac{1}{n}\left( x_{1} + x_{2} + \cdots + x_{n} - n\mu \right) \right)^{2} \right] \\
&=& E \left[ \frac{1}{n^{2}} \left( (x_{1} - \mu) + (x_{2} - \mu) + \cdots + (x_{n} - \mu) \right)^{2} \right] \\
&=& \frac{1}{n^{2}}\sum E\left[ (x_{i}-\mu )^{2}\right] \\
&=& \frac{1}{n^{2}} \sum \sigma^{2} \\
&=& \frac{1}{n}\sigma^{2}
\end{eqnarray}
\]
これを標本分散の期待値の式に代入する。
\[ E[s^{2}]=\sigma^{2} - E\left[ (\bar{X}-\mu)^{2} \right] = \sigma^{2}-\frac{1}{n}\sigma^{2} \]
よって、
\[ \sigma^{2}=\frac{n}{n-1}E[s^{2}]=\frac{n}{n-1}\left( \frac{1}{n}\sum (x_{i}-\bar{X})^{2} \right)=\frac{1}{n-1}\sum (x_{i}-\bar{X})^{2} \]
このように、標本から分散を計算するとき、n で割るのではなく、上式のように n-1 で割ることで、母分散 σ と等しくなる。この n-1 で割ることで計算される分散を不偏分散という。統計分野でいう分散は、ほとんどの場合、不偏分散を意味する。
\[ \hat{\sigma}^{2}=\frac{1}{n-1}\sum (x_{i}-\bar{X})^{2} \]