分布の形が同じである 2 つの母集団に対して、分布の位置が同じかどうかを検定する方法

マン・ホイットニーの U 検定

マン・ホイットニーの U 検定(Mann–Whitney U test)は、分布の形が同じである 2 つの母集団に対して、分布の位置が同じかどうかを検定するノンパラメトリック方法の一つである。マン・ホイットニーの U 検定の他にウィルコクソンの順位和検定と呼ばれる検定もあるが、両者は実質的に同じ検定である。母集団 1 の累計確率分布を F(x) とし、母集団 2 の累計確率分布を F(x + θ) としたとき、マン・ホイットニーの U 検定において、帰無仮説は次のようになる。

\[ H_{0}: \theta = 0 \]

マン・ホイットニーの U 検定は、数値そのものを利用して検定を行うのではなく、数値の順位を利用して検定を行なっている。母集団 1 から n1 個の標本を抽出し、母集団 2 から n2 個の標本を抽出したとする。これらの標本を利用して、母集団 1 と母集団 2 の位置が同じかどうかを検定する。

マン・ホイットニーの U 検定を行う手順として、まず n1 + n2 個の標本をまとめてから昇順に並べる。次に、昇順並べられた前標本のうち、母集団 1 から抽出された標本の順位の和を計算して R1 とおく。同様にして、母集団 2 から抽出された標本の順位の和を計算して R2 とおく。同じ値が複数存在するとき、それらの値の順位を平均順位とする。例えば、

母集団1121221
標本0.51.21.21.61.82.12.2
順位12.52.54567

のとき、R1 および R2 は次のように計算される。

\[ R_{1} = 1 + 2.5 + 4 + 7 = 14.5 \] \[ R_{2} = 2.5 + 5 + 6 = 13.5 \]

次に、R1 および R2 を利用して U1 および U2 を計算する。

\[ U_{1} = n_{1}n_{2} + \frac{n_{1}(n_{1}+1)}{2} - R_{1} \] \[ U_{2} = n_{1}n_{2} + \frac{n_{2}(n_{2}+1)}{2} - R_{2} \]

そして、 U1 および U2 のうち小さい方を U 統計量として検定に用いる。

サンプルサイズが少ないときは、マン・ホイットニーの U 検定用の統計数値表を利用して棄却限界値を決める。これに対して、サンプルサイズが大きいとき、目安として n1 > 20 または n2 > 20 のとき、

\[ \mu_{U} = \frac{n_{1}n_{2}}{2} \] \[ \sigma_{U} = \sqrt{\frac{n_{1}n_{2}(n_{1} + n_{2} + 1)}{12}} \]

として、統計量 U を標準化し、標準正規分布で近似する。

\[ Z = \frac{U - \mu_{U}}{\sigma_{U}} \sim \mathcal{N}(0, 1) \]

そして、棄却限界値は標準正規分布表で決める。

R によるマン・ホイットニーの U 検定

R では wilcox.test 関数を使用してマン・ホイットニーの U 検定を行う。次は、乱数を使用して、分布の形は同じだが、 一方の分布の値が他方よりも大きくなるように標本を生成して、検定を行う例である。

x <- c(rnorm(10, 60, 10), rnorm(20, 60, 20))
y <- c(rnorm(10, 90, 10), rnorm(20, 90, 20))

wilcox.test(x, y)
##        Wilcoxon rank sum exact test
##
## data:  x and y
## W = 76, p-value = 1.092e-09
## alternative hypothesis: true location shift is not equal to 0