カイ二乗分布

標準正規分布 \( \mathcal{N}(0, 1) \) から n 個の標本 X1, X2, ..., Xn を独立に抽出したとする。このとき、n 個の標本の 2 乗和 Z が従う分布を、自由度 n のカイ二乗分布という。

\[ Z = X_{1}^{2} + X_{2}^{2} + \cdots + X_{n}^{2} = \sum_{i=1}^{n}X_{i}^{2} \sim \chi (n) \]

自由度 n のカイ二乗分布の確率密度関数は、次のように表される。ただし、Γ はガンマ関数である。

\[ f_n(x)=\dfrac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)}x^{\frac{n}{2}-1} \exp \left(-\frac{x}{2}\right) \qquad (x > 0) \]

カイ二乗分布はある変数の二乗和が従う分布である。標準正規分布に従う確率変数の分散を考えたとき、その分散はカイ二乗分布に従う。そのため、カイ二乗分布は、主に分散に関わる解析に使われる。例えば、分散の区間推定などに使われる。

標準正規分布に従う変数の 2 乗和がカイ二乗分布に従うことの証明

自由度 n は自然数であるから、数学的帰納法を使用して、「n 個の標本の 2 乗和 Z が従う分布を自由度 n のカイ二乗分布」になることを証明する。

k = 1 のとき、X12 は自由度 1 のカイ二乗分布に従うことを証明する。X1 は標準正規分布に従うので、その確率密度関数は次のようにかける。

\[ \phi(x)=\dfrac{1}{\sqrt{2\pi}}\exp \left(-\dfrac{x^2}{2} \right) \]

ここで、Y = X2 となる新しい確率変数 Y を導入して、その累積分布関数は次のように計算できる。

\[ \begin{eqnarray} F(y) &=& P(Y < y) \\ &=& P(X^{2} < y) \\ &=& P(-\sqrt{y} < X < \sqrt{y}) \\ &=& \int_{-\sqrt{y}}^{\sqrt{y}}\phi(x)dx \end{eqnarray} \]

累積分布関数を微分すると確率密度関数になるので、上式の両辺を y で微分する。

\[ \begin{eqnarray} f(y) = \frac{dF(y)}{dy} &=& \phi(\sqrt{y})\frac{d}{dy}(\sqrt{y}) - \phi(-\sqrt{y})\frac{d}{dy}(-\sqrt{y})\\ &=& \phi(\sqrt{y})\frac{1}{2\sqrt{y}} + \phi(-\sqrt{y})\frac{1}{2\sqrt{y}} \\ &=& \frac{1}{\sqrt{2\pi}}\exp \left(-\frac{y}{2}\right)\frac{1}{2\sqrt{y}} + \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{y}{2}\right)\frac{1}{2\sqrt{y}} \\ &=& 2\frac{1}{\sqrt{2\pi}}\exp \left(-\frac{y}{2}\right) \frac{1}{2\sqrt{y}} \\ &=& \frac{1}{2^{\frac{1}{2}} \Gamma \left( \frac{1}{2} \right)} y^{\frac{1}{2} - 1}\exp \left( -\frac{y}{2} \right) \end{eqnarray} \]

この確率密度関数は自由度 1 のカイ二乗分布の確率密度関数を表している。よって k = 1 が成り立つ。

次に、k = n-1 のとき、\( \sum_{i=1}^{n-1}X_{i}^{2} \) が自由度 n - 1 のカイ二乗分布に従うことを仮定する。ここで k = n のとき、\( \sum_{i=1}^{n}X_{i}^{2} \) の分布を計算してみる。ここで、以下のように新しい確率変数 Y と Z を導入する。

\[ Y = \sum_{i=1}^{n-1}X^{2} \] \[ Z = Y + X_{n}^{2} \]

\(X_{n}\) は標準正規分布に従う変数であるから、\(X_{n}^{2}\) は自由度 1 のカイ二乗分布に従う。また、仮定により、Y は自由度 n - 1 のカイ二乗分布に従う。\(X_{n}^{2}\) と Y は独立だから、両者の同時確率密度関数は、 \(X_{n}^{2}\) の確率密度関数と Y の確率密度関数の関として表される。

\[ f(x, y) = f_{1}(x)f_{n-1}(y) \]

このとき、確率変数 Z の累積分布関数は次のようにかける。

\[ \begin{eqnarray} F(z) &=& P(Z < z) = P(X+Y < z) \\ &=& \int_{0}^{z}\int_{0}^{z-y} f_{1}(x)f_{n-1}(y) dxdy \end{eqnarray} \]

この累積分布関数を微分することで、Z に関する確率密度関数が求まる。k = n - 1 について、仮定してあることに注意すると、

\[ \begin{eqnarray} f(z) &=& \frac{dF(z)}{dz} \\ &=& \int_{0}^{z} f_{1}(z - y) f_{n-1}(y) dy \\ &=& \int_{0}^{z} \left(\frac{1}{2^{\frac{1}{2}} \Gamma \left( \frac{1}{2} \right)} (z-y)^{\frac{1}{2} - 1}\exp \left( -\frac{z-y}{2} \right) \right) \left ( \frac{1}{2^{\frac{n-1}{2}} \Gamma \left( \frac{n-1}{2} \right)} y^{\frac{n-1}{2} - 1}\exp \left( -\frac{y}{2} \right) \right) dy \\ &=& \int_{0}^{z} \frac{1}{2^{\frac{1 + (n -1)}{2}} \Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}(z-y)^{\frac{1}{2}-1}y^{\frac{n-1}{2}-1} \exp\left( -\frac{z}{2} \right)dy \\ &=& \int_{0}^{z} \frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}(z-zt)^{\frac{1}{2}-1}(zt)^{\frac{n-1}{2}-1} \exp\left( -\frac{z}{2} \right)zdt \\ &=& \frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}z^{\frac{n}{2}-1}\exp\left( -\frac{z}{2} \right) \int_{0}^{t}(1-t)^{\frac{1}{2}-1}t^{\frac{n-1}{2}-1}dt \end{eqnarray} \]

ここで、ベータ関数とガンマ関数の間には次の関係が成り立つことに着目すると、

\[ \begin{eqnarray} \int_{0}^{t}(1-t)^{\frac{1}{2}-1}t^{\frac{n-1}{2}-1}dt &=& \left( \frac{1}{2}, \frac{n-1}{2}\right) \\ &=& \frac{\Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{1}{2} + \frac{n-1}{2}\right)} \end{eqnarray} \]

よって、

\[ \begin{eqnarray} f(z) &=& \frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}z^{\frac{n}{2}-1}\exp\left( -\frac{z}{2} \right) \int_{0}^{t}(1-t)^{\frac{1}{2}-1}t^{\frac{n-1}{2}-1}dt \\ &=& \frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}z^{\frac{n}{2}-1}\exp\left( -\frac{z}{2} \right) \frac{\Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{1}{2} + \frac{n-1}{2}\right)} \\ &=& \frac{1}{2^{\frac{n}{2}}\Gamma\left(\frac{n}{2}\right)} z^{\frac{n}{2}-1} \exp\left( -\frac{z}{2} \right) \end{eqnarray} \]

ここで、\( Z = Y + X_{n}^{2} = \sum_{i=1}^{n-1}X_{i}^{2} + X_{n}^{2} = \sum_{i=1}^{n}X_{i}^{2} \) だから、k = n のときも成り立つ。よって、k = 1 のときが成り立つので、k = 2, 3, 4, ..., とすべての自然数 n について、n 個の標本の 2 乗和 Z が従う自由度 n のカイ二乗分布に従う。

分散とカイ二乗分布の関係

X1, X2, ..., Xn が互いに独立で、平均 μ および分散 σ2 の正規分布に従うとき、

\[ Y = \frac{1}{\sigma^{2}}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2} \]

とおくと、Y は自由度 n - 1 のカイ二乗分布に従う。

証明

\[ \begin{eqnarray} \frac{1}{\sigma^{2}} \sum_{i=1}^{n}(X_{i} - \overline{X})^{2} &=& \frac{1}{\sigma^{2}} \left( \sum_{i=1}^{n}(X_{i}-\mu)^{2} - n(\overline{X} - \mu)^{2} \right) \\ &=& \sum_{i=1}^{n} \left(\frac{X_{i}-\mu}{\sigma}\right)^{2} - \left( \frac{\overline{X} - \mu}{\sqrt{\frac{\sigma^{2}}{n}}} \right)^{2} \\ \end{eqnarray} \]

上式の第 1 項は、\( \frac{X_{i}-\mu}{\sigma} \sim \mathcal{N}(0, 1) \) であることに着目すると、その二乗和は自由度 n のカイ二乗分布に従う。

\[ \sum_{i=1}^{n} \left(\frac{X_{i}-\mu}{\sigma}\right)^{2} \sim \chi (n) \]

また、第 2 項について、中心極限定理により標本平均 \(\overline{X}\) の分布は正規分布 \(\mathcal{N}(\mu, \frac{\sigma^{2}}{n})\) に従うから、\( \frac{\overline{X} - \mu}{\sqrt{\frac{\sigma^{2}}{n}}} \sim \mathcal{N}(0, 1)\) である。よって、

\[ \left( \frac{\overline{X} - \mu}{\sqrt{\frac{\sigma^{2}}{n}}} \right)^{2} \sim \chi(1) \]

以上により、\(\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}\) は、n 個の標準正規分布に従う確率変数の二乗和から 1 個の標準正規分布に従う確率変数の二乗を引いた値となることから、自由度 n - 1 のカイ二乗分布に従う。