例えば血液型と性格に関係があるか調べたいとします。20項目の性格検査を行って、それぞれについて統計的検定をします。すると、血液型と性格にまったく関係がなくても、それぞれの項目が偶然に $p \leq 0.05$ になる確率は 1/20 ですから、20項目も調べれば、偶然に $p \leq 0.05$ になる項目が一つくらいあって当然です。こういう多変量の実験をして安易に「血液型と性格に有意な関係が見つかった」と結論づけられないように、検定を何度もした場合は $p \leq 0.05$ に何らかの補正が必要だとされるようになりました。この問題を、多重比較(multiple comparisons)の問題といいます。
この問題の最も簡単な解は、$n$ 回検定したのなら、統計的に有意かどうかの基準を $p \leq 0.05$ でなく $p \leq 0.05 / n$ にすることです。この方法をBonferroni(ボンフェローニ)の方法といいます。上記の血液型の研究の場合、20回検定したのなら、$p \leq 0.05/20 = 0.0025$ であれば有意とします。
Bonferroniの方法は $n$ 個の検定を一つ一つ見ているのではなく、全体としてまったく効果がないという帰無仮説を検定するものです。したがって、$n$ 個のうち一つでも $p \leq 0.05/n$ を満たせば、帰無仮説は棄却されます。言い換えれば、$p$ 値を小さい順に $p_1 \leq p_2 \leq \ldots \leq p_n$ と並べたとき、$p_1 \leq 0.05/n$ だけを調べればいいことになります。ここで、もし $p_1 \leq 0.05/n$ だった場合、今度は1番目の検定を除いた $n-1$ 個の検定全体がまったく効果がないという帰無仮説を $p_2 \leq 0.05/(n-1)$ で検定することができます。このようにして「全体」を一つずつ減らし、帰無仮説が棄却できなくなったところで止める、というのがHolm(ホルム)の方法です。
BonferroniやHolmの方法は、それぞれの $p$ 値が独立であることを仮定しないので、適用範囲が広く、よく使われます。
あることがらについて実験し、$p = 0.02$ を得ました。統計的に有意です! でも、念のため、少し違う方法で実験し直して、やはり $p = 0.02$ を得ました。さらに念のため、さらに違う方法で実験し直して、やはり $p = 0.02$ を得ました。3回も有意な結果が出たので、これは絶対に正しいだろうと思って論文にして投稿したところ、査読者から「多重比較の補正をすると、BonferroniでもHolmでも $p > 0.05/3$ なので、この3回の実験はどれも有意ではありません」と言われてしまいました。しまった! 実験を1回で止めておけば有意だったのに! それにしても変だな。3回やって3回とも $p \leq 0.05$ になるようなことは $20^3 = 8000$ 回に1回しか起こらない非常に稀有な事象だと思ったんだけど、有意でないとは?
血液型と性格の例では、もともと両者に関係がないので、20個の $p$ 値は0〜1の一様乱数になり、20個に1個は $p \leq 0.05$ を満たしてしまいました。ところが、2番目の例では、すべての実験で $p = 0.02$ を得ていますので、$p$ 値が0〜1の一様乱数である可能性は低そうです。
このようなときに威力を発揮するのが、Benjamini(ベンジャミニ)とHochberg(ホックバーグ、ホッチバーグ)による方法です。以下ではBH法と呼ぶことにします。
まずHolmの方法と同様に $p$ 値を小さい順に $p_1 \leq p_2 \leq \ldots \leq p_n$ と並べますが、Holmとは逆に、大きい方から見て行き、$p_k \leq 0.05k/n$ になったら止め、$p_1$ から $p_k$ までを有意とします。これなら、最初の例のような $p_1 \leq 0.05 \leq p_2$ のときはBonferroniやHolmと同じになりますし、2番目の例のような $p_n \leq 0.05$ のときは全部が有意になります。
BH法の0.05は、通常の有意水準ではなく、False Discovery Rate(FDR)つまり有意と判断されたもののうち偽の有意の割合を0.05以下に抑える、というものです。また、$n$ 個の検定が独立であることを仮定しています。
伝統的な統計学では、「何も効果がない」という帰無仮説に対応する数理モデルを仮定して、そのモデルのもとに「実際に得られた実験結果あるいはそれより珍しい実験結果が偶然に起きる確率」$p$ を求め、それが $p \leq \alpha$(有意水準 $\alpha$ は一般に0.05とする)を満たすなら、帰無仮説を棄却して「効果があった」と結論します。$p > \alpha$ なら「効果は確認できなかった」ということになります(しばしば誤って「効果はなかった」と結論されます)。
しかし、そもそも何の意味もない $\alpha = 0.05$ という値をもって効果があるかないかを分ける方法論は、科学的とは言えないので、近年は否定されつつあります(例えばAmerican Statistical AssociationのThe ASA Statement on p-Values: Context, Process, and Purpose参照)。もちろん $p$ 値の意味がないわけではありませんが、0.05のような恣意的な値で区切って効果があるかないかを判断するな、ということです。
$p$ 値を0.05で区切る必要がなければ、多重比較の補正も不要です。
ずっと前から「多重比較の補正は不要」と言っていた人もいます。Rothmanは疫学の著名な教科書を編纂している大先生です。Andrew Gelmanはたくさん教科書を書いているベイズ寄りの著名な統計学者です。
でも、論文を書けば必ず「仮説検定しなさい。多重比較の補正をしなさい」と言ってくる査読者がいますので、そちらの立場もよく理解しておく必要があります。
帰無仮説のもとで $p \leq \alpha$ が成り立つ確率は、定義により、たかだか $\alpha$ です。つまり、$P(p \leq \alpha) \leq \alpha$ です。連続分布なら、ぴったり $P(p \leq \alpha) = \alpha$ です。つまり、帰無仮説のもとで $p$ は0〜1の一様乱数です。以下では連続分布を仮定します。
もし $n$ 個の $p$ 値が独立なら、帰無仮説(まったく効果なし)のもとで、どれか一つでも偶然に $p \leq \alpha$ になる確率は $1 - (1 - \alpha)^n$ なので、これを例えば 0.05 にしたければ、$\alpha = 1 - (1 - 0.05)^{1/n}$ とすればいいことになります。例えば $n = 2$ なら、$\alpha \approx 0.02532$ と個々の $p$ 値を比べ、どれか一つがこれより小さければ帰無仮説を棄却します。$n = 20$ なら $\alpha \approx 0.00256$ です。これをŠidák(シダック)の方法といいます。これは次のBonferroniの方法 $\alpha = 0.05/n$ と数値的にほとんど違いません。
必ずしも独立でない二つの $p$ 値 $p_1$、$p_2$ があったとしましょう。これらを一つずつ見たとき水準 $\alpha$ で有意になる個数の期待値は $E([p_1 \leq \alpha] + [p_2 \leq \alpha]) = E([p_1 \leq \alpha]) + E([p_2 \leq \alpha]) = P(p_1 \leq \alpha) + P(p_2 \leq \alpha) = 2\alpha$ になります。ここで $[ \cdots ]$ は中身が真ならば1、偽ならば0です(Iversonの記号)。ここで確率変数 $X$、$Y$ が独立でなくても $E(X+Y) = E(X) + E(Y)$ であることを使いました。同様に、$E([p_1 \leq \alpha] + \cdots + [p_n \leq \alpha]) = n\alpha$ です。これを 0.05 にしたければ、$\alpha = 0.05/n$ にすればよいことになります。これがBonferroniの方法です。
ここで、あらかじめ $p_1 \leq p_2 \leq \cdots \leq p_n$ のように昇順にソートしておくことにしましょう。すると、Bonferroniの方法は、$P(p_1 \leq 0.05/n) \leq 0.05$ と書くことができます。$p_2$ 以降の値はまったく関係しません。そもそもBonferroniの方法は、全部の $p$ 値をまとめて見ているので、どの $p$ 値が有意だという言い方はしないはずです(現実にはそういう言い方をしますが)。
この $n$ 個全部についてのBonferroniの帰無仮説を $H_1$ とすると、$p_1 \leq 0.05/n$ であれば $H_1$ は棄却されます。
このとき、$p_2$ 以降の $n-1$ 個についてのBonferroniの帰無仮説を $H_2$ とすると、$p_2 \leq 0.05/(n-1)$ であれば $H_2$ も棄却されます。
これをどんどん続けていって、$H_{i-1}$ まで棄却されて $H_i$ が棄却されなかったところで停止するような方法を、Holmの方法といいます(Holmはこの方法をsequentially rejective Bonferroni testと呼んでいます)。
$H_{i-1}$ が棄却される、つまり $p_{i-1}$ から $p_n$ までが全体として有意なら、その部分集合である $p_i$ から $p_n$ までも全体として有意かどうかを問う理由はありますが、$p_{i-1}$ から $p_n$ までが全体として有意でない(偶然の所作)なら、その部分集合も有意でないことは、分散分析でお馴染みの考え方ですね。
🍊未完🍊