統計のパラドックス

どこかで見た統計のパラドックスの最小例を作ってみた(1..nの乱数を8個生成して,パラドックスが生じる最小のnの例を一つ見つけた)。

次の表は,教授法A,Bで合格者o,失格者xの数を示したものである。男女合わせて集計すれば6/11<5/9でBが優れるが,男女別に集計すれば3/4>4/6,3/7>1/3でいずれもAが優れる。「人数が少ないから」は関係ない(全部の数値を1万倍しても同じことがいえる)。

AB
oxox
3142
3412
6554

このことからどのような結論が出せるか。

[追記] Simpson's paradoxという名前が付いていた。

教授法Aの方が優れているという結論が正しいと思います

教授法Aと教授法Bとでの試験結果の分析としては、「教授法Aの方が優れている」という結論で良いと思います。

・男女で合格率が偏っている
・教授法Aと教授法Bとを受講した男女のバランスが偏っている
という2点の偏りが、男女を合計したときのB>Aになったという結果と分析すべきであること、
たとえば、男200人と女200人の合計400人を教授法A,Bでそれぞれ100人ずつ受講させるとして比率を元に再計算すると、男女計でもA>Bになります。

私もこのネタに記憶があります。
マーチンガードナーの本だったと思います。
「UCB大学院の合格率に男女差がある、トータルでは男の方が合格率が高い、しかしどの学部も女の方が合格率が高い」というものでした。やはり、受験する学部に男女の偏りがあることが原因で生じたものだ、と記憶しています。

UCBの例

コメントありがとうございます。UCBの例は英語のWikipediaのSimpson's paradoxにも載っていますね。

ガードナーの本にも載っていましたか。私の読んだのはスティーヴン・セン『確率と統計のパラドックス』でした。この本にはウィル・ロジャーズ現象も載っていました。

「何もわからない」という結論だと思います

> このことからどのような結論が出せるか。
なので、あえて、「何もわからない」に1票。

「全部の数字を1万倍して」みた場合、確率的には同じ 0.5 でも、 2人中1人と、20000人中10000人では統計上の意味は違うと思います。

まあ表の数字がすべて1万倍された数字だったとしても私の答えは「わからない」で提出させていただきます。

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。