確率関数 X が平均 μ、分散 σ2 の正規分布に従うとき、その確率密度関数は以下のように表すことができる。
\[
f(X; \mu, \sigma^{2}) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left( -\frac{(X-\mu)^{2}}{2\sigma^{2}} \right)
\]
正規分布と平均値
マウスの体重や植物の草丈の長さなどを測定し、得られたデータから何らかの特徴を見出したい場合は、そのデータの分布の中心を求めることになる。分布の中心として、平均値、中央値、最頻値など様々な指標があるが、とりわけ平均値がよく利用される。平均値をよく用いられるのは、平均値が(正規分布に従う)データの分布の中心を表す指標として尤もらしいからである。
例えば、n 個の観測値 x1, x2, ..., xn があるとする。n 個のデータが同じ正規分布 N(μ, σ) に従うとすると、xi が観測される確率は、正規分布の密度関数 φ(xi) によって書き表すことができる。すなわち、
\[ \phi (x_{i})= \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right) \]
そこで、x1, x2, ..., xn が同時に観測される確率を L とおくと、L は次のように書き表せる。(L を尤度関数という)
\[ L = \prod^{n}_{i=1} \phi (x_{i})= \prod^{n}_{i=1} \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right) \]
L は掛け算のため、実際に計算しようとすると、非常に時間がかかる。そこで、これを対数化させる。(これを対数尤度関数という)
\[
\begin{eqnarray}
\ln(L) &=& \sum^{n}_{i=1} log\left(\frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2}\left( \frac{x_{i} - \mu}{\sigma} \right)^{2} \right)\right) \\
&=& n\ln\left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \frac{1}{2}\sum^{n}_{i=1}\left(\frac{x - \mu}{\sigma}\right)^{2}
\end{eqnarray}
\]
対数尤度 ln(L) 最大にするパラメータ μ を求める。ln(L) を μ について微分する。
\[ \frac{d \ln(L)}{d\mu} = 0 \Longleftrightarrow \sum^{n}_{i=1}\frac{(x_{i} - \mu)}{\sigma^{2}} = 0\]
よって、ln(L) を最大にする μ は、
\[ \sum^{n}_{i=1}\frac{(x_{i} - \mu)}{\sigma^{2}} = 0 \Longleftrightarrow \mu = \frac{1}{n}\sum_{i=1}^{n}x_{i}\]
最尤法により、データが正規分布に従うとき、データの中心を表す指標として平均値が最も相応しい、であることが証明される。そのために、マウスの体重などデータの特徴を計算する際に、平均値などを用いたりする。このことからもわかるように、データが正規分布でなければ、平均値が相応しくない場合もある。