分布の広がり | データの広がりを表す要約統計量には、平方和・分散・四分位数などがある

観測データにはノイズが含まれている。例えば、ある品種の小麦の収量が平均 μ および標準偏差 σ の正規分布に従うとき、栽培試験から得られる小麦の収量はほとんどの場合 μ±2σ の範囲に含まれる。σ が小さければ、ほぼすべてのの小麦個体が同じ収量（μ）になる。一方で、σ が大きければ、個体によって収量が高かったり（μ+σ）、小さかったりして（μ-σ）、ばらつきが大きくなる。データが、ほぼ同じ値の近くに集中しているのか、それとも広範囲にばらついているのか図る指標として、以下のようなものがある。

平方和 sum of squares

データ x₁, x₂, ..., x_n に対して、平方和 S(X) は次のように定義される。

\[ S(X)=\sum_{i=1}^{n} \left( x_{i}-\bar{X} \right)^{2}=\sum_{i=1}^{n}\left( x_{i}-\frac{x_{1}+x_{2}+\cdots +x_{n}}{n} \right)^{2} \]

R で平方和を計算する例。

x <- c(14, 12, 59, 2, 39, 41, 8)
sum( ( x - mean(x) )^2 )
## [1] 2716

分散 unbiased variance

分散には不偏分散と標本分散があり、普遍分散は次のように定義される。（不偏分散と標本分散の違いについて）

\[\sigma^{2}=\frac{S(X)}{n-1}=\frac{\sum_{i=1}^{n}\left(x_{1}-\bar{X}\right)}{n-1}\]

x <- c(14,　12,　59,　2,　39,　41,　8)
var(x) #不偏分散
## [1] 452.6667

標準偏差 standard deviation

分散を平方した値を標準偏差という。分散と同様に、標本標準偏差（単に標準偏差）と不偏標準偏差がある。不偏標準偏差は次のように定義される。

\[\sigma=\sqrt{\sigma^2}\]

x <- c(14, 12, 59, 2, 39, 41, 8)
sd(x) 
## [1] 21.27596

sqrt(var(x)) 
## [1] 21.27596

変動係数 coefficient of variation

標準偏差を平均で割った値を変動係数という。データの中心位置が異なるデータに対して、その相対的な散らばり具合を比較する際に用いる。例えば、草丈の高さとその乾燥重量の比較など。

\[ CV = \frac{\sqrt{\sigma^{2}}}{\mu} \]

x <- c(14, 12, 59, 2, 39, 41, 8)
sqrt(var(x)) / mean(x)
## [1] 0.8510386

平均偏差（絶対偏差） mean deviation

平均偏差は次のように定義されている。

\[ MD=\frac{\sum_{i=1}^{n}|x_{i}-\bar{X}|}{n}\]

x <- c(14, 12, 59, 2, 39, 41, 8)
sum(abs(x - mean(x))) / length(x) 
## [1] 18.28571

範囲 range

データ x₁, x₂, ..., x_n に対して、その最大値と最小値の差を範囲という。

\[ Range(X)=x_{max}-x_{min} \]

x <- c(14, 12, 59, 2, 39, 41, 8)
max(x)-min(x)
## [1] 57

y <- range(x)
y[2] - y[1]
## [1] 57

四分位範囲 interquartile range

データ x₁, x₂, ..., x_n に対して、小さい方から\(\frac{1}{4}\) 番目のデータを Q₁、\(\frac{3}{4}\) 番目のデータをQ₃ としたとき、四方位範囲 IQR と四方偏差 Q は次のように計算される。また、Q₁、Q₃ にデータがない場合は直線補間によって求める。

\[ IQR=Q_{3}-Q_{1} \] \[ Q=\frac{IQR}{2} \]

x <- c(14,12,59,2,39,41,8)
quantile(x)
##   0%  25%  50%  75% 100% 
##    2   10   14   40   59

fivenum(x)
## [1]  2 10 14 40 59