観測データにはノイズが含まれている。例えば、ある品種の小麦の収量が平均 μ および標準偏差 σ の正規分布に従うとき、栽培試験から得られる小麦の収量はほとんどの場合 μ±2σ の範囲に含まれる。σ が小さければ、ほぼすべてのの小麦個体が同じ収量(μ)になる。一方で、σ が大きければ、個体によって収量が高かったり(μ+σ)、小さかったりして(μ-σ)、ばらつきが大きくなる。データが、ほぼ同じ値の近くに集中しているのか、それとも広範囲にばらついているのか図る指標として、以下のようなものがある。
平方和 sum of squares
データ x1, x2, ..., xn に対して、平方和 S(X) は次のように定義される。
\[ S(X)=\sum_{i=1}^{n} \left( x_{i}-\bar{X} \right)^{2}=\sum_{i=1}^{n}\left( x_{i}-\frac{x_{1}+x_{2}+\cdots +x_{n}}{n} \right)^{2} \]
R で平方和を計算する例。
x <- c(14, 12, 59, 2, 39, 41, 8)
sum( ( x - mean(x) )^2 )
## [1] 2716
分散 unbiased variance
分散には不偏分散と標本分散があり、普遍分散は次のように定義される。(不偏分散と標本分散の違いについて)
\[\sigma^{2}=\frac{S(X)}{n-1}=\frac{\sum_{i=1}^{n}\left(x_{1}-\bar{X}\right)}{n-1}\]
x <- c(14, 12, 59, 2, 39, 41, 8)
var(x) #不偏分散
## [1] 452.6667
標準偏差 standard deviation
分散を平方した値を標準偏差という。分散と同様に、標本標準偏差(単に標準偏差)と不偏標準偏差がある。不偏標準偏差は次のように定義される。
\[\sigma=\sqrt{\sigma^2}\]
x <- c(14, 12, 59, 2, 39, 41, 8)
sd(x)
## [1] 21.27596
sqrt(var(x))
## [1] 21.27596
変動係数 coefficient of variation
標準偏差を平均で割った値を変動係数という。 データの中心位置が異なるデータに対して、その相対的な散らばり具合を比較する際に用いる。 例えば、草丈の高さとその乾燥重量の比較など。
\[ CV = \frac{\sqrt{\sigma^{2}}}{\mu} \]
x <- c(14, 12, 59, 2, 39, 41, 8)
sqrt(var(x)) / mean(x)
## [1] 0.8510386
平均偏差(絶対偏差) mean deviation
平均偏差は次のように定義されている。
\[ MD=\frac{\sum_{i=1}^{n}|x_{i}-\bar{X}|}{n}\]
x <- c(14, 12, 59, 2, 39, 41, 8)
sum(abs(x - mean(x))) / length(x)
## [1] 18.28571
範囲 range
データ x1, x2, ..., xn に対して、その最大値と最小値の差を範囲という。
\[ Range(X)=x_{max}-x_{min} \]
x <- c(14, 12, 59, 2, 39, 41, 8)
max(x)-min(x)
## [1] 57
y <- range(x)
y[2] - y[1]
## [1] 57
四分位範囲 interquartile range
データ x1, x2, ..., xn に対して、小さい方から\(\frac{1}{4}\) 番目のデータを Q1、\(\frac{3}{4}\) 番目のデータをQ3 としたとき、四方位範囲 IQR と四方偏差 Q は次のように計算される。また、Q1、Q3 にデータがない場合は直線補間によって求める。
\[ IQR=Q_{3}-Q_{1} \]
\[ Q=\frac{IQR}{2} \]
x <- c(14,12,59,2,39,41,8)
quantile(x)
## 0% 25% 50% 75% 100%
## 2 10 14 40 59
fivenum(x)
## [1] 2 10 14 40 59