$t$ 検定とMann-Whitneyの $U$ 検定（とBrunner-Munzel検定）

「$t$ 検定はデータが正規分布をしていないと使えない。正規分布でない場合はMann-Whitneyの $U$ 検定（Wilcoxon-Mann-Whitney検定、Wilcoxonの順位和検定ともいう）のようなノンパラメトリックな（順位だけに基づいた）検定を使え」とよく言われてきました。

われわれが観測するデータは、一般に正規分布をしていないので、それなら $t$ 検定は使うべきではなく、常にノンパラメトリックな検定を使えばいいのでしょうか？

でもAndrew Gelman御大は Don't do the Wilcoxon なんてことを言っておられます。本当にややこしい。

そもそも $t$ 検定が何を検定するかというと、データの平均値の差です。データがほとんどどんな分布をしていようと、データの平均値はほぼ正規分布になる（データの個数が増えると正規分布に近づく）という「中心極限定理」があるので、正規分布に基づく検定で近似して大丈夫なはずです。データの分布が正規分布でないから $t$ 検定を使うな、というのは、疑問です。特に、分散が等しいことを仮定しない $t$ 検定（Welchの検定）は、両群の分布の違いに対しても頑健です。

中心極限定理が成り立たないCauchy（コーシー）分布のようなものもあります。Cauchy分布は外れ値の多い分布で、平均値も分散も定義できません。例えばイーロン・マスクが入っているかもしれないグループで資産の平均を求めても意味がありません。このような場合は平均値ではなく中央値を使うべきです。

このような例外はあるものの、中心極限定理は多くの場合に成り立ちます。特に、1が「反対」、2が「やや反対」、3が「どちらでもない」、4が「やや賛成」、5が「賛成」のようなアンケートの回答、いわゆるLikert（リッカート）尺度のデータについては、外れ値もないので中心極限定理は成り立つはずです。Geoff Norman (2010), Likert scales, levels of measurement and the “laws” of statistics はこの立場を擁護する論文です。

一方、Torrin M. Liddell and John K. Kruschke (2018), Analyzing ordinal data with metric models: What could possibly go wrong? は、Likert尺度のデータを平均値で評価すると、ordered-probit model の潜在変数の平均値の大小関係と逆転する例を挙げ、順序尺度に平均値を使うべきでないと主張しています。

ちょっと極端な例ですが、次の例を考えましょう。アンケートで、赤組は全員「ほぼほぼ賛成」、青組は半分が「大賛成」、残りが「大反対」と答えたとします。

「ほぼほぼ賛成」（目盛6）が「大賛成」（目盛7）に近いと考えれば赤組の方が賛成に偏っていると言えます。一方、順序関係しか考えないMann-Whitneyの $U$ 検定やBrunner-Munzel検定では、両群の差はないことになります。

上の例は人工的すぎると感じられたかもしれませんが、散らばりの小さい群Xと大きい群Yとで、平均値はXが有意に大きいけれどもノンパラメトリックな検定ではYが有意に大きいような現実的な例はいくらでも作れます（後で例を挙げます）。

Likert尺度のデータの扱いについては、ほかにもいろいろな意見がありうるでしょうし、意見の違う査読者から突っ込まれることもあり、悩ましいところです。迷ったら併記するくらいでしょうか。

いずれにしても、「有意かどうか」を考える前に、データをまずはグラフで表して、よく観察しましょう。

実例で考えてみましょう。乱数データでもいいのですが、$t$ 検定などで例として使ったLumleyのデータを例にとります：

x = [1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 4, 1, 1]
y = [3, 3, 4, 3, 1, 2, 3, 1, 1, 5, 4]

見るからに y の方が大きそうです。まずは可視化。ヒストグラムでもいいのですが、ここでは中央揃え帯グラフ：

2群の平均値の差の $t$ 検定（分散が等しいことを仮定しないWelch検定）の結果は、$p = 0.00948$、95%信頼区間 [-2.36, -0.38] です。各群の平均値と95%信頼区間は次の図のようになり（→ エラーバー参照）、Y群の方が大きいことが見てとれます。

Mann-Whitneyの $U$ 検定（厳密な検定）では $p = 0.00669$ となります。また、Brunner-Munzel検定（厳密な検定）では $p = 0.00804$ となります。どちらもY群の方が大きいことになります。

特に指定されない限り、$t$ 検定では両群の分散が等しいと仮定しないWelchの検定、ノンパラメトリックでは両群の分布が同じだと仮定しないBrunner-Munzel検定の方を使うべきです。

次の例は、間隔尺度的な見方と順序尺度的な見方が逆転する例です。1000人ずつの2群の比較です。

x = [3]*200 + [4]*600 + [5]*200
y = [1]*50 + [2]*100 + [3]*150 + [4]*290 + [5]*410

何となくXの方が大きいように見えます。どちらでもない意見の人を除けば、Xは賛成派ばかりですが、Yは150人も反対派がいます。

各群の平均と信頼区間を見てもXの方が大きいようです。$t$ 検定の結果は $p = 0.034$ です。

Brunner-Munzel検定の結果も $p = 0.022$ で有意ですが、$P(X < Y) + 0.5P(X = Y) = 0.529$、95%信頼区間は $[0.504, 0.554]$ となり、両群からランダムに一つずつ選んで比較すればXの方が小さいことが多いという結果になりました。信じられないかもしれないので計算してみましょう：

s = 0
for u in x:
    for v in y:
        s += (u < v) + (u == v) / 2

print(s / (len(x) * len(y)))

結果は 0.529 です。つまり、順序尺度的にはXの方が小さいのです。これは、アンケート結果の1〜5を間隔尺度として見たときの大小関係と、順序尺度として見たときの大小関係が逆転する例です。どちらの方が研究者の意図に合致しているでしょうか。難しい問題です。

なお、上の帯グラフではXの方が大きく見えてしまいましたが、最頻値はYの方が大きいことも見てとれます。また、両群とも中央値は4ですが、Xの中央値は4の真ん中あたりで、Yの中央値は4の中でも5寄りのところなので、Yの方が大きいのだ、とする考え方もあるかもしれません。潜在変数的に見れば、Yは4より5が多いので大きい側で飽和してしまっているだけで、本来はもっと大きい潜在値があるのだ、という考え方もできます（これがLiddell and Kruschkeの考え方に近そうです）。

以下は昔やったシミュレーションの結果です。

$t$ 検定とMann-Whitneyの $U$ 検定との違いを見るために、ちょっとシミュレーションをしてみましょう。ある検定法で求めた $p$ 値がどれくらい妥当かを示す簡単な方法として、帰無仮説に従うサンプルをたくさん生成して検定して $p$ 値を求め、それが0から1までの区間で一様分布になっているかを調べる方法があります。一様分布なら例えば $p < 0.05$ になる確率がちょうど 0.05 ですので、$p$ 値の性質を満たしています。

まずはデータが正規分布に従う場合を考えましょう。標準正規分布（平均 0、分散 1 の正規分布）から $M = 10$ 個ずつ取った2つのサンプルを生成し、分散が等しいと仮定した $t$ 検定をして $p$ 値を求め、$p$ 値のヒストグラムを描きます。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

rng = np.random.default_rng()

M = 10
N = 100000

def p_value():
    data1 = rng.standard_normal(M)
    data2 = rng.standard_normal(M)
    return stats.ttest_ind(data1, data2, equal_var=True).pvalue

p_values = [p_value() for _ in range(N)]
plt.hist(p_values, color="lightgray", edgecolor="black",
         bins=np.arange(21)/20, density=True)

理屈どおり、一様分布になっています。

ではデータが正規分布でない場合はどうでしょうか。ここではデータが一様分布だとしてみます。上のコードの2箇所の rng.standard_normal(M) を rng.random(M) に変えるだけです。

ほぼ一様分布ですね。

現実のデータの検定では equal_var=True でなく equal_var=False とするほう（分散が等しいと仮定しない $t$ 検定、Welch検定）が、適用範囲が広がるので推奨されています。こちらをやってみましょう。

こちらもほぼ一様分布ですね。

なお、分散が等しいかどうかを $F$ 検定で調べて、等しければ分散が等しいと仮定する $t$ 検定、そうでなければ分散が等しいと仮定しない $t$ 検定を使いましょうと言われたこともありましたが、これは間違いです。分散が等しいかどうかわからない場合は、最初から分散が等しいと仮定しない $t$ 検定を使いましょう。詳しくはt検定の下の方にある解説とシミュレーション結果をご参照ください。

ここでMann-Whitneyの $U$ 検定（厳密版）にしてみましょう。stats.ttest_ind(data1, data2, equal_var=...) を stats.mannwhitneyu(data1, data2, method="exact") に変えるだけです（Mann-WhitneyのU検定に書いたように、これはタイがない場合にしか使えない方法です）。

ガタガタの分布になってしまいました。厳密版を近似版（method="asymptotic"）にしてもほぼ同じです。順位を使うので離散分布になってヒストグラムの階級の取り方によってガタガタになってしまうのですが、慣らして考えても一様分布からの外れが見えます。

以上はすべて $M = 10$ の場合でした。もっとサンプルサイズを小さくしたら、中心極限定理からの外れが大きくなって、誤差が出てくるはずです。やってみましょう。まず $M = 5$ です。少し一様分布からの系統的な外れが見えてきますが、それでも上のMann-Whitneyよりずっとマシです。

$M = 3$ です。

外れがだんだん目立ってきます。やはり $M = 5$ 以上、できれば $M = 10$ 以上は欲しいところです。それより小さいサンプルの場合は、そもそも機械的に検定をするような状況でない場合が多いと思いますので、個々のデータ点をプロットするなりして、総合的に判断しましょう。

結論として、分散が等しいと仮定しない $t$ 検定（Welch検定）を使いましょう。そして、有意か有意でないかの2分割ではなく、どれくらい差があるかの具体的な値とその信頼区間を書くのがよいでしょう。

[追記] Brunner-Munzel検定（厳密版）でもやってみました。from permutations_stats.permutations import permutation_test してから permutation_test(data1, data2, test="brunner_munzel").pvalue を返すように直すだけです。数時間かかりました。Mann-Whitneyよりずっと一様分布に近い $p$ 値になりました。

ただ、これは M = 10 だからで、M = 5 とかにすると、やはり歯抜けの分布になります。