分布の広がり

観測データにはノイズが含まれている。例えば、ある品種の小麦の収量が平均 μ および標準偏差 σ の正規分布に従うとき、栽培試験から得られる小麦の収量はほとんどの場合 μ±2σ の範囲に含まれる。σ が小さければ、ほぼすべてのの小麦個体が同じ収量(μ)になる。一方で、σ が大きければ、個体によって収量が高かったり(μ+σ)、小さかったりして(μ-σ)、ばらつきが大きくなる。データが、ほぼ同じ値の近くに集中しているのか、それとも広範囲にばらついているのか図る指標として、以下のようなものがある。

平方和 sum of squares

データ x1, x2, ..., xn に対して、平方和 S(X) は次のように定義される。

S(X)=i=1n(xiX¯)2=i=1n(xix1+x2++xnn)2

R で平方和を計算する例。

x <- c(14, 12, 59, 2, 39, 41, 8)
sum( ( x - mean(x) )^2 )
## [1] 2716

分散 unbiased variance

分散には不偏分散と標本分散があり、普遍分散は次のように定義される。(不偏分散と標本分散の違いについて

σ2=S(X)n1=i=1n(x1X¯)n1
x <- c(14, 12, 59, 2, 39, 41, 8)
var(x) #不偏分散
## [1] 452.6667

標準偏差 standard deviation

分散を平方した値を標準偏差という。分散と同様に、標本標準偏差(単に標準偏差)と不偏標準偏差がある。不偏標準偏差は次のように定義される。

σ=σ2
x <- c(14, 12, 59, 2, 39, 41, 8)
sd(x) 
## [1] 21.27596

sqrt(var(x)) 
## [1] 21.27596

変動係数 coefficient of variation

標準偏差を平均で割った値を変動係数という。 データの中心位置が異なるデータに対して、その相対的な散らばり具合を比較する際に用いる。 例えば、草丈の高さとその乾燥重量の比較など。

CV=σ2μ
x <- c(14, 12, 59, 2, 39, 41, 8)
sqrt(var(x)) / mean(x)
## [1] 0.8510386

平均偏差(絶対偏差) mean deviation

平均偏差は次のように定義されている。

MD=i=1n|xiX¯|n
x <- c(14, 12, 59, 2, 39, 41, 8)
sum(abs(x - mean(x))) / length(x) 
## [1] 18.28571

範囲 range

データ x1, x2, ..., xn に対して、その最大値と最小値の差を範囲という。

Range(X)=xmaxxmin
x <- c(14, 12, 59, 2, 39, 41, 8)
max(x)-min(x)
## [1] 57

y <- range(x)
y[2] - y[1]
## [1] 57

四分位範囲 interquartile range

データ x1, x2, ..., xn に対して、小さい方から14 番目のデータを Q134 番目のデータをQ3 としたとき、四方位範囲 IQR と四方偏差 Q は次のように計算される。また、Q1、Q3 にデータがない場合は直線補間によって求める。

IQR=Q3Q1 Q=IQR2
x <- c(14,12,59,2,39,41,8)
quantile(x)
##   0%  25%  50%  75% 100% 
##    2   10   14   40   59

fivenum(x)
## [1]  2 10 14 40 59