正規分布

確率関数 X が平均 μ、分散 σ2 の正規分布に従うとき、その確率密度関数は以下のように表すことができる。

\[ f(X; \mu, \sigma^{2}) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left( -\frac{(X-\mu)^{2}}{2\sigma^{2}} \right) \]

正規分布と平均値

マウスの体重や植物の草丈の長さなどを測定し、得られたデータから何らかの特徴を見出したい場合は、そのデータの分布の中心を求めることになる。分布の中心として、平均値、中央値、最頻値など様々な指標があるが、とりわけ平均値がよく利用される。平均値をよく用いられるのは、平均値が(正規分布に従う)データの分布の中心を表す指標として尤もらしいからである。

例えば、n 個の観測値 x1, x2, ..., xn があるとする。n 個のデータが同じ正規分布 N(μ, σ) に従うとすると、xi が観測される確率は、正規分布の密度関数 φ(xi) によって書き表すことができる。すなわち、

\[ \phi (x_{i})= \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right) \]

そこで、x1, x2, ..., xn が同時に観測される確率を L とおくと、L は次のように書き表せる。(L を尤度関数という)

\[ L = \prod^{n}_{i=1} \phi (x_{i})= \prod^{n}_{i=1} \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right) \]

L は掛け算のため、実際に計算しようとすると、非常に時間がかかる。そこで、これを対数化させる。(これを対数尤度関数という)

\[ \begin{eqnarray} \ln(L) &=& \sum^{n}_{i=1} log\left(\frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right)\right) \\ &=& n\ln\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2}\sum^{n}_{i=1}\left(\frac{x - \mu}{\sigma}\right)^{2} \end{eqnarray} \]

対数尤度 ln(L) 最大にするパラメータ μ を求める。ln(L) を μ について微分する。

\[ \frac{d \ln(L)}{d\mu} = 0 \Longleftrightarrow \sum^{n}_{i=1}\frac{(x_{i} - \mu)}{\sigma^{2}} = 0\]

よって、ln(L) を最大にする μ は、

\[ \sum^{n}_{i=1}\frac{(x_{i} - \mu)}{\sigma^{2}} = 0 \Longleftrightarrow \mu = \frac{1}{n}\sum_{i=1}^{n}x_{i}\]

最尤法により、データが正規分布に従うとき、データの中心を表す指標として平均値が最も相応しい、であることが証明される。そのために、マウスの体重などデータの特徴を計算する際に、平均値などを用いたりする。このことからもわかるように、データが正規分布でなければ、平均値が相応しくない場合もある。