データの四分位点などを同時に表現できるグラフ

ボックスプロット

ボックスプロットは、データの四分位点などを同時に表現できるグラフである。グラフの真ん中に四角形(ボックス)が見られる故にボックスプロットと呼ばれている。ボックスの枠の上下に垂線が突き出している。ボックスの上辺は第 3 四分位点、下辺は第 1 四分位点を表す。ボックス内部にある横線は第 2 四分位点(中央値)を表す。また、上下に伸びる垂線の頂点の外側にあるプロットされている点は、 2σ 範囲に含まれないデータ(外れ値)を表す。複数カテゴリーに分けられたデータの特徴を比較しながら概観するときに、よく利用されるグラフである。

ボックスプロットと似たようなプロットには、ヴァイオリンプロットビーンプロットなどがある。これらは、四分位点だけでなく、データの推定密度などもプロット上で確認できる。

boxplot にベクトルを与えると、そのベクトルから四分位点などが計算され、ボックスプロットとして描かれる。ベクトルは複数代入することもできる。

x <- rnorm(1000, 10, 2)
boxplot(x)
Rのboxplotで描いたボックスプロット
x <- rnorm(1000, 10, 2)
y <- rnorm(1000, 13, 2)
z <- rnorm(2000, 15, 5)
boxplot(x, y, z, names = c("x", "y", "z"))
Rのboxplotで描いたボックスプロット

ベクトルのほかに、行列データも boxplot 関数に与えることができる。 

m <- matrix(rnorm(10000,10,5), ncol = 5)
colnames(m) <- c("A", "B", "C", "D", "E")
head(m)
##              A         B         C         D          E
## [1,] 13.980569 19.106357  6.945987 10.537158 11.3290692
## [2,]  9.484191 16.962958 10.281235  7.957678 -5.7362880
## [3,]  2.910832 14.720321  6.040949  4.499667  9.5031007
## [4,] 13.568331  6.991693  9.127854  7.217053 -0.1928855
## [5,]  8.580020 11.699326  8.513323  6.271955 13.2376031
## [6,]  7.458951 11.774758 10.499333  5.616801  5.9733678

boxplot(m)
Rのboxplotで行列型のデータをもとに描いたボックスプロット

boxplot 関数の border 引数でボックスの枠線の色を指定でき、col 引数でボックスの塗りを指定できる。

boxplot(m, 
  main = "rnorm", xlab = "type", ylab = "values",
  border = c("darkgreen", "orange", "red", "magenta", "blue"),
  col    = c("lightgreen", "lightyellow", "pink", "pink", "lightcyan")
)
Rのboxplotで行列型のデータをもとに描いたボックスプロット。borderとcolオプションで色の塗りを指定できる。