日教組票と学力:補遺

右の表は2008-10-08のMSN産経ニュース組合と学力に関連性はあるか? 低学力地域は日教組票多くで組合の票数と学力に負の相関がある証拠として使われたもの。これについては当ブログの日教組票と学力へのコメントでいろいろなことがわかってきたが,得票数は人口が交絡するので得票率にしなければならないとか,学力で10個ずつ・得票数で16個ずつといった恣意的な取り出し方をせずに全データを使うべきなどの技術的な問題点はすべて忘れて,この表の注目点である赤と青の数だけに注目する。

ワースト628
ベスト257
8715

これをもって,ワーストは赤が多い,ベストは青が多いという結論を出すのは統計的に意味があるかという点だけについて考える。問題を次のように言い換えよう。

赤玉8個,青玉7個が入った壷からランダムに8個取り出したところ,赤玉6個,青玉2個が出た。これって珍しいことなの? それとも偶然?

この問題は私たちの年代なら高校の数学で習ったが,赤6個・青2個が出る確率は 8C67C2 / 15C8 である。同様に,これよりアンバランスの程度が同程度以上の赤7個・青1個,赤8個・青0個,赤2個・青6個,赤1個・青7個の確率を求めて,合計すると,0.1319 となる。

この計算は昔Fisherが考えたもので,Rでは fisher.test(matrix(c(6,2,2,5),nrow=2)) とすれば一発で出る。

確率 p = 0.1319 というと,偶然でも8回に1回以上起こるということだ。通常「統計的に有意」とされるのは p ≦ 0.05 である。p = 0.1319 では証拠として不十分である。

ちなみに,物理学ではもっと基準が辛い。今朝の朝日新聞に南部陽一郎先生のノーベル賞がらみで出ていたが,ヒッグス粒子が発見されたと言うためには 99.9999% つまり p ≦ 0.000001 が必要。物理屋の言い方を使えば 5σ 以上が必要とされている。

6σ

某外資系コンピュータメーカの品質管理目標は,不良率「6σ」以下(未満だったかな?)という,もの凄いものでした。
結局達成できたのかどうかは確認していません。 :-P

Re: 6σ

正規分布で6σ以上になるのは10億分の2かと思ったら,シックス・シグマってのは100万分の3.4のことをいうんですね。知らなかった。

日教組票と学力:図示

なぜ10個とか16個のような恣意的なところで切ってはいけないかを示すのに役立つかもしれない図を描いてみました。データは産経が使ったものと同じです:

この四隅だけ見れば産経が根拠とした分割表になります。

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。