日教組票と学力

このブログの日教組組織率と学力:補遺へのコメントで教えていただいたが,日教組組織率と学力に負の相関関係がない(むしろ正の相関があるかもしれない)ことを受けて,産經新聞が,日教組票と学力に負の相関があることを証明しようとしている:

日教組組織率と学力に相関がないことを証明しようとした朝日新聞と比べて,次の点は良い。

  • 恣意的に選んだ科目の得点ではなく,総合点を使っている
  • 恣意的に選んだ県ではなく,学力ベスト10・ワースト10の県を使っている(全部の県を調べるほうがずっと良いが)

MSN産経によれば,「組織率だけでは活動の過激さは分からない。」「そこで日教組の「強さ」を測る指標として、平成19年と16年の参院選(比例)で、日教組の組織内候補(民主党の計2議員)の総得票数を調査。」とのことだ。この2議員がだれか,その選択が恣意的でないかはよくわからないが,少なくとも,産経が使った「得票数」は各県の人口にほぼ比例するので,人口が交絡因子になってしまう。そこで,票数を有権者数で割ってみよう。産経のデータに2005-09-11総選挙のデータの有権者数を加えたものは次の通り。

     総合点 総合点順位 日教組票 日教組票順位 有権者数
沖縄   423.8 47  1202 35  1028769
高知   455.3 46  2053 30   658942
北海道 458.9 45 40344  2  4640240
大阪   462.2 44 14882 11  7030978
岡山   472.6 43 13090 13  1577061
福岡   474.5 42 25754  6  4044967
和歌山 475.3 41   986 38   863347
大分   475.4 40 26561  5   994199
滋賀   475.6 38  4739 22  1073021
三重   475.6 38 32840  3  1494567

     総合点 総合点順位 日教組票 日教組票順位 有権者数
東京   498.9 10  6684 19 10242560
静岡   500.3  9 25648  7  3047170
岐阜   501.5  8  1196 36  1689387
山形   503.6  7  3879 23   984809
香川   508.4  6   711 45   834214
青森   509.0  5   787 44  1189643
石川   512.0  4 15814 10   944729
富山   524.3  3  1975 32   911652
福井   539.1  2  7035 18   656285
秋田   547.1  1  1402 34   959970

産経によれば,「学力テストは小中2学年の全教科の今春の平均正答率を合算した。日教組票は現職議員がいる平成19年と16年の参院選(比例)における組織内候補の得票率を合算。按分票は合算後に四捨五入。」とのこと。

このデータの料理法はいろいろあるだろうが,とりあえず上位10県と下位10県の票数÷有権者数の平均についてt検定をしてみる。p=0.273で,統計的に有意な差はない。ぜひ他の方法も試して,結果をコメントしてください。

> b = best$日教組票 / best$有権者数
> w = worst$日教組票 / worst$有権者数
> t.test(b,w)

	Welch Two Sample t-test

data:  b and w 
t = -1.1376, df = 15.063, p-value = 0.2730
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.010829076  0.003290281 
sample estimates:
  mean of x   mean of y 
0.004631567 0.008400964 

プロット

47都道府県のデータ

いつも拝見しております。

この件については47都道府県のデータを集計している人がいらっしゃいます。
http://d.hatena.ne.jp/kei999/20081008

Re: 47都道府県のデータ

ありがとうございます。
完全に負けました。すばらしい!

検算

完全に負けてますが,いちおう検算をした結果を書いておきます。CSV形式のデータ(sjis-dos)はここに置いておきます。

「得票率=1000*(H16参院選那谷屋正義/H16有効投票数+H19参院選神本みえ子/H19有効投票数)」で計算しました。ただし著しく偏った分布なので,プロットしたり通常の(Pearsonの)相関係数を求めるには対数変換するのがいいでしょう。そうすると,r = -0.038 で,p = 0.7996 です。

なお,このような偏った外れ値の多そうなデータについては順位相関係数のほうがさらにいいでしょう。対数変換などもしなくて済みます。特にKendallのτがお薦めです。τ = -0.082,p = 0.4196 です。いずれにしても統計的に有意というにはほど遠い値です。

政党の得票率(比例区)については統計的に有意に見えるものは次の二つでした:

τp
公明党-0.3000.002963
自民党0.2340.02031

結論:公明党の強い県は学力が低い。自民党の強い県は学力が高い。^^;

データの出典:

政党得票との相関

政党得票率との相関は、よく知られた学力と所得との相関に由来するのではないでしょうか。きちんと証明するためには、学力-所得および所得-政党得票率の相関が、学力-得票率の相関より高いことを示さなくてはいけませんけれど。
 30年ほど前のことですが、民青やっていた友人が、支持者の平均所得が一番低いのは実は共産党でなくて公明党なんだよね、と言っていたのを思い出しました。

Re: 政党得票との相関

ありがとうございます。なるほど!

出てきたついでに,昨日描いた片対数プロットを載せておきます:

r = -0.038,p = 0.7996

ついでにもう一つプロット

r = -0.094,p = 0.5282
τ = -0.104,p = 0.3043

これは産経の記者がやったのと同じ得票数によるプロットです。Pearsonの相関係数 r については得票数の対数をとったものを使いました(Kendallのτは変換に対して不変)。

この同じデータから産経は「関連がある」と結論づけたわけです。人口が交絡していることよりも,データの一部分を見ることによって関係が見えたように思ってしまったというのが本当のところでしょうか。血液型と性格の関係と同様,恣意的に見ると,ないはずの関係が見えてしまうということはよくあるので,必ずデータ全体を見ることと,p 値を求めてみることが大切だろうと思います。

給食費未納率と学力

組合と学力に関連性はないと思うを書かれたkei999さんが学力テストと給食費未納率の関係も調べられていますね。ただ,この図を見ると,沖縄県が外れ値になっているように見えます。これは悪い例かもしれないので,ちょっとやり直してみようと思ったら,あれー,このPDFは画像なのでコピペできない! しかたがないので打ち込みました:

給食費未納率 = c(1.4, 0.2, 1, 1.1, 0.6, 0.2, 0.4, 0.7, 0.4, 0.6, 0.5, 0.7, 0.4, 0.4, 0.1, 0.1, 0.2, 0.2, 0.4, 0.2, 0.4, 0.2, 0.2, 0.2, 0.5, 0.1, 0.4, 0.2, 0.2, 0.2, 0.5, 0.4, 0.3, 0.2, 0.2, 0.2, 0.2, 0.2, 0.5, 0.8, 0.8, 0.8, 0.4, 0.7, 0.5, 0.7, 3.8)

で,外れ値(最後の 3.8)の影響を減らすためにやはりKendallの順位相関係数を使います。τ = -0.38, p = 0.0003833 で,仮に沖縄を外しても τ = -0.35, p = 0.001259 ですね。

失業率と学力

ついでにやはりkei999さんの組合と学力に関連性はないと思うに従って総務省統計局の労働力調査 都道府県別結果にある「平成20年4~6月期平均結果」というExcelファイルから取った完全失業率データも調べてみました(図は省略)。

τ = -0.28,p = 0.00667

完全失業率 = c(5.1, 5.6, 4.1, 4.5, 3.7, 3, 4.2, 4, 3.7, 3.3, 3.9, 3.7, 3.9, 3.7, 3.5, 2.9, 2.9, 2.9, 3.7, 3.1, 2.7, 2.8, 2.9, 2.5, 3.2, 4.2, 5.2, 4.1, 3.2, 3.6, 4.3, 3, 3.6, 3.4, 3.1, 4, 4, 3.7, 5.6, 5.1, 3.1, 4.2, 4.3, 4.2, 3.6, 3.8, 7.5)

以下は念のため。

総合点 = c(458.9, 509, 485.6, 481.2, 547.1, 503.6, 484.8, 486.6, 481.3, 496.4, 486, 489.3, 498.9, 486, 487.7, 524.3, 512, 539.1, 485.1, 490.1, 501.5, 500.3, 494.7, 475.6, 475.6, 498.8, 462.2, 490.5, 497.8, 475.3, 497.3, 483.3, 472.6, 496.8, 477, 491.5, 508.4, 488.3, 455.3, 474.5, 478, 477.2, 492.5, 475.4, 490.5, 479.3, 423.8)

県名 = c("北海道", "青森県", "岩手県", "宮城県", "秋田県", "山形県", "福島県", "茨城県", "栃木県", "群馬県", "埼玉県", "千葉県", "東京都", "神奈川県", "新潟県", "富山県", "石川県", "福井県", "山梨県", "長野県", "岐阜県", "静岡県", "愛知県", "三重県", "滋賀県", "京都府", "大阪府", "兵庫県", "奈良県", "和歌山県", "鳥取県", "島根県", "岡山県", "広島県", "山口県", "徳島県", "香川県", "愛媛県", "高知県", "福岡県", "佐賀県", "長崎県", "熊本県", "大分県", "宮崎県", "鹿児島県", "沖縄県")

民主党の強い地域では?

民主党議員の得票数(←産経での表現)が多い地域とは、まず第一に民主党が強い地域(例えば比例票)に決まってますよね。
地域別の全民主党議員の得票数と民主党の強さとの相関関係を出してそこから逸脱していないかを調べないと。
それが有意な範囲なら「民主党議員の得票数が多い地域とは民主党の強い地域」という口にするのも馬鹿馬鹿しい結果しか導けない気がしますが。

Re: 民主党の強い地域では?

上にすでに書きましたように統計的に有意なのは公明党と自民党です。民主党はそうではありませんでした。

恐縮です

奥村先生。
私のブログを見ていただいて恐縮しています。
正直申しあげて、私はまったく統計学を知りません。
産経の記事に脊髄反射しただけで、学力テストの平均点と日教組候補の得票率をグラフにしてみると、まったく関係がないことが素人にもはっきりわかっただけです。

で、お暇な時、気が向けばでいいのですが・・・
給食費未納率に関してですが、学力テストと未納率をエクセルで=CORRELでやっても=PEARSONでやっても0.44になります。 私の「はじめての統計学」という本には自由度が45のとき5%有意水準が0.288とあります。 エクセルのデータ分析で給食費未納率と学力テスト順位を回帰分析をすると有意 FとP-値が0.001845になりました。 点数だと1.28E-05。
P値が0.05以下だといいんだーと勝手に解釈しています。

Kendallの順位相関係数というのはまったく違うものなんでしょうか? Kendallの順位相関係数だと都道府県別の給食費未納率と学力テストの平均点は相関があると考えられるのでしょうか? 的外れな質問だったら申し訳ありません。

どもどもm(__)m

kei999さん,わざわざお越しいただきありがとうございます。

私はkei999さんの計算の後追い状態で,すみません。

給食費未納率については,総合点とのKendallの順位相関係数τは -0.38 ですが,この大きさは通常の(Pearsonの)相関係数(ExcelではCorrelまたはPearson)とは直接比べられないので,それが統計的に有意であるかどうかを調べる有意確率(p値)を見た方がピンとくると思います。この場合,p = 0.0003833 ですので,偶然にこのような大きなτが現れるのは3000回に1回しかないということになり,十分に有意だ(つまり相関がある)と見ていいと思います。仮に沖縄を外してもτは -0.35 で,そのp値は 0.001259 ですから,やっぱり有意です。pの意味は通常の場合と同じですので,一般には0.05以下であれば有意という人が多いと思います。

分布が正規分布に近ければ通常の(Pearsonの)相関係数を使えばいいのですが,未納率のデータなどは,飛び抜けた値がけっこう多いので,順位相関係数を使うほうが安全だろうと思います。順位相関係数にはSpearmanのとKendallのがありますが,とりあえずお薦めなのはKendallのものです。

データをいただければ解析しますので,おもしろいデータのヒントをいただければ幸いです。

 精緻な分析非常に

 精緻な分析非常に勉強になりました。
 私も個人的に気になって、相関係数だしたりしてみました(http://ottanti.at.webry.info/200810/article_13.html)。やり方は少々違いますが。順位相関はやろうと思いつつ自信がなかったのでやめました(笑
 向学のために、暇なときにデータを参考にさせていただき、自分でもやってみようと思います。こういう面白いネタは勉強にいいですね。

 当然といえば当然ですが、学力テストの結果と可処分所得との相関は非常によかったです。家計調査の二人以上世帯・勤労者世帯のデータでやると、ほぼ0.6になりました。やっぱり順位相関は出してないですけど。

Re: 精緻な分析非常に

ありがとうございます。見せていただきました。やっぱり県によって経済的な格差みたいなのが根底にあって,それが学力とか政党支持率とかにかかわってくるのでしょうか。

順位相関係数とかp値とか,いろいろ書きましたけれど,一番情報量が多くて眼に訴えるのは散布図だろうと思います。

それにしても得票数と得票率の違いくらい新聞記者さんには勉強してほしいですね。

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。