多重比較検定問題 | 検定を繰り返すことによって偽陽率が増える問題とその対処方法

多重比較検定と偽陽性

t 検定は 2 群間の平均値の比較に使われている。ここで、3 つの実験群 A, B, C があり、各群の平均値に違いがあるかどうかを検定するために t 検定を用いると、危険率 5% のもとで、A vs B、B vs C、C vs A の 3 回の t 検定を行う必要がある。1 回目の A vs B における t 検定により、帰無仮説 μ_A = μ_B を間違って棄却される確率は 0.05 となる。同様にして、帰無仮説 μ_B = μ_C と帰無仮説 μ_C = μ_A を間違って棄却される確率もそれぞれ 0.05 となる。仮説検定に関しては、ここまでは正しく、とくに何も問題が起こらない。

しかし、これらの検定結果を同時に利用して A、B、および C 群の平均値の差を説明しようとするとき、3 回の仮説検定は同時に行ったということになる。このとき、3 つ帰無仮説のうち少なくとも 1 つ以上が間違って棄却される確率は 1 - (1 - 0.05)³ = 0.142625 となる。これが本来設定していた危険率 0.05 よりも約 3 倍の値となっている。

つまり、危険率 0.05 のもとで検定していたはずなのに、言い換えると、帰無仮説を間違って棄却される最大確率を 0.05 よりも小さくなるように設定して検定を行っていたのに、検定結果を説明する段階では、帰無仮説を間違って棄却される最大確率が 0.142625 となってしまった。検定前に設定した危険率と検定後に得られた「帰無仮説を間違って棄却される確率」との差が、偽陽性（本来は帰無仮説を棄却すべきでないのに棄却してしまったこと）を示唆している。これが多重比較検定時に起こる問題である。このような問題に対して、多重比較検定補正を行う必要がある。

第一種の過誤と第二種の過誤

n 個の帰無仮説に対して、n 回の検定を行ったとき、正しく検定された回数と間違って検定された回数は次の表のようにまとめることができる。

	帰無仮説が正しい	帰無仮説が間違い	合計数
検定結果により帰無仮説を棄却した	V	S	R
検定結果により帰無仮説を保留した	U	T	n - R
合計数	n₀	n - n₀	n

この表において、間違っていた検定結果を下した帰無仮説は V および T に分類されている。V は、第一種の過誤（α エラー）とよばれ、帰無仮説が正しいのに、それを棄却してしまったという過誤である。T は、第二種の過誤（β エラー）とよばれ、帰無仮説が間違っているのに、それを保留してしまったという過誤である。

単一の検定を行うとき（n = 1）、危険率を 0.05 に設定することは、V/n₀ = V < 0.05 としていることと同じ意味である。n 個の仮説に対して検定を繰り返していったとき、帰無仮説に対して間違って検定結果を下した場合、その帰無仮説は V または T に分類される。多重比較検定の場合、V の数が増えてしまうことが問題となっている。そのため、多重比較検定の結果をより正しいものに補正したければ、V の数を増えないように補正すれば良い。その方法として、すべての検定を終えた後に、V/n₀ を小さく抑える補正をかけるか、V/R を小さく抑える補正をかけるかである。

FWER を調整する方法

多重比較検定結果の偽陽性を抑えるために、すべての検定を終えた後に、V/n₀ を小さく抑える補正をかけるか、V/R を小さく抑える補正をかけるかである。V/n₀ を小さく抑える方法として、すべての検定を終えたあと検定全体としての危険率 familywise error rate (FWER) を調整する方法が使われている。代表的な方法として Bonferroni 補正がある。

Bonferroni 補正では、n 回の検定を行うときに、検定全体の危険率を α としたい場合は、各仮説検定を行うときの危険率をそれぞれ α/n に設定している。このとき、n 回の検定が行われた場合の FWER は次のように計算される。

\[1 - \left(1 - \frac{\alpha}{n} \right)^{n} = 1 - e^{-\alpha} \lt \alpha \quad (n > 0) \]

例えば α = 0.05 とおくと 1 - e^-0.05 = 0.04877 < 0.05 となり、α = 0.01 とおくと 1 - e^-0.05 = 0.00995 < 0.01 となることがわかる。

FDR を調整する方法

多重比較検定結果の偽陽性を抑えるために、すべての検定を終えた後に、V/n₀ を小さく抑える補正をかけるか、V/R を小さく抑える補正をかけるかである。R/V を制御することにより、偽陽性を抑えることもできる。V/R は、検定結果により棄却したすべての帰無仮説のうち、棄却すべきでないのに棄却してしまった仮説の割合である。この割合（の期待値）は、「間違っていると思って棄却した仮説の中に含まれている正しかった仮説の割合」として捉えることもでき、これにちなんで false discovery rate (FDR) という。

FDR を調整する方法は、Bonferroni 補正に比べてやや複雑である。補正を行うには、まず n 回の検定を行い、n 個の p 値を計算しておく。次に、この p 値に対して小さ順に並べ替えて、p 値の小さ順から FDR の閾値判定を行う。FDR を調整する方法として、Benjamini & Hochberg 法などが使われている。

マイクロアレイや RNA-Seq のデータなどから発現変動遺伝子などを検出する際に利用される多重比較検定補正は、FDR を調整する方法を利用するのが一般的である。FWER を調整する方法は、複数の帰無仮説がすべて正しいときに効果を発揮できる補正方法である（上の表の「帰無仮説が正しい」列に着目した補正方法）。これに対して、FDR を調整する方法は、複数の帰無仮説があるうち、正しいものと間違っていたものの両方が存在するときに、効果を発揮できる補正方法である（上の表の「検定結果により帰無仮説を棄却した」行に着目した補正方法）。マイクロアレイや RNA-Seq の実験では、1 回の実験で数千から数万の帰無仮説が作られ、この中に偽の帰無仮説も多く含まれていると考えられる。そのため、FDR を調整する方法による補正が行われている。