止め方で結果が変わる?

問題

  1. 硬貨を12回投げたところ表が3回出た。この硬貨は偏っているか。
  2. 硬貨を表が3回出るまで投げようと決心して投げ続けたところ,12回投げたところで3回目の表が出たのでそこで止めた。この硬貨は偏っているか。

統計的仮説検定

最初の問題については,表の出る確率が $\theta$ の硬貨を $n$ 回投げて表が $r$ 回出る確率は2項分布

\[ P_r = {}_nC_r \theta^r (1-\theta)^{n-r} \]

に従うことから計算すると,$n = 12$, $\theta = 0.5$ のとき,

\[ P_{0} + P_{1} + P_{2} + P_{3} = 0.073 \] \[ P_{0} + P_{1} + P_{2} + P_{3} + P_{9} + P_{10} + P_{11} + P_{12} = 0.146 \]

となり,片側 $p$ 値 7.3%,両側 $p$ 値 14.6% です。

一方,2番目の問題については,表の出る確率が $\theta$ の硬貨を $n-1$ 回投げて表が $r-1$ 回出て,最後の $n$ 回目に表が出る確率ですから,

'\[ Q_n = {}_{n-1}C_{r-1} \theta^{r-1} (1-\theta)^{n-r} \cdot \theta = {}_{n-1}C_{r-1} \theta^r (1-\theta)^{n-r} \]

のようになります。これは負の2項分布とも呼ばれます。$r = 3$, $\theta = 0.5$ のとき,$Q_3$ から $Q_{12}$ までは

0.125, 0.1875, 0.1875, 0.15625, 0.1171875, 0.08203125, 0.0546875, 0.03515625, 0.02197266, 0.01342773, ...

のようになります。

\[ Q_3 + Q_4 + \cdots + Q_{11} = 0.967 \]

ですから,12回目以降に3番目の表が出る確率は 3.3% です。これは片側の $p$ 値です。この場合,両側 $p$ 値をどう定義するかは議論の余地があります(検定と区間推定の最後のところをご覧ください)が,いずれにしても片側 $p$ 値はかなり異なります。

このように,同じ12回中3回表が出ることに対して結論が違ってくるのは,統計的仮説検定のそもそもの考え方が間違っているからだと主張する人がいます。しかし,硬貨を1枚ずつ投げたとき,11回投げた時点で,前者ではすでに表が3枚出ている公算が大きいのに対して,後者では表はまだ2枚しか出ていません。実際,$\theta$ の不偏推定量は前者では $r/n = 3/12$,後者では $(r-1)/(n-1) = 2/11$ です。前者の事象と同程度以上に珍しい事象が起こる確率は,硬貨を1枚ずつ投げたとき13回目以降に4番目の表が出る確率7.3%ですし,後者の場合は,硬貨を1枚ずつ投げたとき12回目以降に3番目の表が出る確率3.3%です。これらの値が違うことに不思議はありません。

ある結果が生じる確率をモデルのパラメータ $\theta$ の関数と見たものを尤度(ゆうど)といいます。上の二つの問いの尤度はどちらも $\theta^r (1-\theta)^{n-r}$ に比例するので実質的に同じものです。尤度が同じなら結果も同じにならなければならないという考え方を尤度原理といいます。統計的仮説検定は尤度原理に反するので原理的に間違っているという主張についてはWikipediaの likelihood principle の項目をご覧ください。

尤度 $\theta^r (1-\theta)^{n-r}$ を最大にする $\theta$ の値(最尤推定量)は $r/n = 3/12$ です。これは2項分布では不偏推定量ですが,負の2項分布では偏りがあります。

信頼区間

12回試みて3回成功した場合の2項検定 binom.test(3,12) では,成功の確率は 0.25 で,その95%信頼区間は [0.055, 0.572] になります。この意味は,検定と区間推定で説明したように,表の出る確率がちょうど 0.055 のとき3枚以上の表が出る確率が 2.5% であり,表の出る確率がちょうど 0.572 のとき3枚以下の表が出る確率が 2.5% であるということです。

同様に,表の出る確率が 0.518 のとき12回目以降に3番目の表が出る確率がちょうど 2.5% になりますし,表の出る確率が 0.055 のとき12回目までに3番目の表が出る確率がちょうど 2.5% になりますので,2番目の問題の場合の信頼区間は [0.055, 0.518] ということになります。

ベイジアンの場合

$\theta$ の事後確率は,事前確率×尤度に比例します。尤度とは上の $P_r$ あるいは $Q_n$ を $\theta$ の関数と見たもので,いずれの問題の場合も $\theta^r (1 - \theta)^{n-r}$ に比例します。事前確率が一定とすれば,事後確率は尤度に比例しますので,定積分の値が 2.5% の点と 97.5% の点をとれば 95% 信頼区間に相当するものが求められます。やってみると,事後確率の平均値は 0.286 で,その95%信用区間は [0.091, 0.538] ほどになります。これはRで binom パッケージを使っても求められます:

> library(binom)
> binom.bayes(3,12,prior.shape1=1,prior.shape2=1,type="central")
  method x  n shape1 shape2      mean     lower     upper  sig
1  bayes 3 12      4     10 0.2857143 0.0909204 0.5381315 0.05

binom.bayes() のデフォルト(Jeffreyの事前確率,両端で発散する)では事後確率の平均値は 0.269, 95%信用区間は [0.076, 0.529] になります:

> binom.bayes(3,12,type="central")
  method x  n shape1 shape2      mean      lower     upper  sig
1  bayes 3 12    3.5    9.5 0.2692308 0.07594233 0.5291911 0.05

両端から2.5%ずつ外した部分ではなく,事後確率が大きい95%の領域を使うこともよくあります。

このようにベイジアンでは実験の停止ルールによらずデータだけで計算できるという利点がありますが,事前確率の定め方によって結果が変わってきます。

もっとも,ベイジアンもそうでないもの(頻度論)も,結果として出てくる 95% 信頼区間(信用区間)は似たり寄ったりで,どれも 0.5 を含んでいるので,12回のうち3回しか表が出なくても,偏った硬貨だと結論するには至りません。


Last modified: