閣僚資産:平均かメジアンか

鳩山内閣閣僚の資産が発表された。毎日新聞に出ている四捨五入された万単位の値をCSVにしてみた:

"名","本人","家族含む"
"鳩山由紀夫首相",144269,144269
"菅直人副総理兼国家戦略担当相",905,2232
"原口一博総務相",914,1220
"千葉景子法相",3523,3523
"岡田克也外相",3273,8641
"藤井裕久財務相",14356,20214
"川端達夫文部科学相",4024,5583
"長妻昭厚生労働相",0,891
"赤松広隆農相",4864,5934
"直嶋正行経済産業相",3333,3333
"前原誠司国土交通相",741,1441
"小沢鋭仁環境相",2089,4014
"北沢俊美防衛相",309,609
"平野博文官房長官",1195,1875
"中井洽国家公安委員長",1296,1296
"亀井静香金融・郵政担当相",9427,18745
"福島瑞穂消費者・少子化担当相",12734,25000
"仙谷由人行政刷新担当相",1968,3987

これをRで読み込んで平均とメジアンを計算:

> X = read.csv("shisan.csv")
> mean(X$本人)
[1] 11623.33
> median(X$本人)
[1] 2681

どちらが適当か。ちなみにいくつかの新聞は平均を載せている。メジアンを載せているものはなさそうだ。毎日新聞にあった平均値は「本人」「家族含む」それぞれ1億1623万,1億4045万である。

Elements of Statistical Learning がダウンロードできる!

Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition. は便利な本だが,重くて持ち歩くのに不便だった。それが丸一冊PDFでダウンロードできるようになっていた! Springerさん,ありがとう! これで出張のときも持って行ける。

学力テスト,40%抽出しないと正確でない?

昔このブログでも何度か取り上げたが,2008年9月24日に就任した中山成彬国土交通相は,「日教組が強いところは学力が低い」などの発言で,5日後の28日に辞職。中山氏が文科相のとき始めた全国学力調査は日教組と学力の関係を調べるためのものだったとの発言もあった。

民主党に政権が移り,学力調査は抽出でよいという話になる。しかし,毎日新聞の記事によれば,

全員方式から抽出方式への転換を模索していた文科省の政務三役が、コストを削減した上で、調査の精度を保てる抽出率を統計の専門家に問い合わせるなどしていた。

その結果、……40%程度が必要と判断。

統計の専門家なら,1%で十分と答えるのではないだろうか。

同記事には「国際的な学力調査を日本で行う場合も、抽出率は10%程度」とあるが,これは何かの間違いだろう。例えばPISA 2006は,文科省のページからリンクされている要約(PDF)によれば,高校1年120万人中約6000人を抽出している。また,TIMSS 2007は,国立教育政策研究所のページからリンクされている概要(PDF)によれば,小学4年4487人,中学2年4312人を抽出している。いずれも抽出率は1%にも満たない。

にわか写真屋さん

教会

結婚式の写真屋さんをした。メインカメラマン(私)は2万円ちょいのRICOH R10,サブカメラマン(かみさん)はずっと前ビンゴで当てたSONY DSC-P8。弘法筆を選ばず(本当はデジイチが欲しい)。

ほとんどフラッシュなしで,重要なところは連写で,どんどん撮った。2Gバイトのメモリはすぐにいっぱいになった。4Gにすべきだった。

MacのiPhotoに読み込ませる。あらかじめiPhotoの設定で「ColorSync プロファイルを埋め込む」をオフにしておかないと,カメラから読み込むときにファイルを編集されてしまうので注意。

この中から良い写真を探すのがたいへんだが,iPhotoはiTunesでプレイリストを作る要領で選択できるので便利。最近のiPhotoはロールごとではなくEXIF情報を見て時系列で表示してくれるので,サブカメラマンの作品と見比べやすい。ただ,時刻合わせを忘れたので,少しずれて表示されてしまった。編集が必要な場合はPhotoshopを使ったが,iPhotoだけでも最近のものはかなり便利な編集機能がある。

数百枚のうち10枚くらいはプロの写真とあまり変わらないものが撮れたかもしれない。

この散布図の意味?

この図,横軸はモスクワの地区ごとの投票率,縦軸は各政党に投票した有権者の割合。青がプーチンのЕдиная Россия(統一ロシア),赤が共産党,など。これは何を意味するか?

三重大連絡

「さんじゅうだいれんらく(みえだいれんらくではない)」という三つの重大な連絡が今日の情報処理学会コンピュータと教育研究会101回研究発表会でアナウンスされた。^^;

それはそうと,会場の無線LANに接続していると,MacBookのFinderにいくつかのコンピュータが見えた。多分ダブルクリックしてもパスワードがわからないと開けないとは思うが,個人名が出ているのもある。気になる人はMacならシステム環境設定の共有でファイル共有を切っておけばよい。

なぜまた重いMacBookを持って行ったかというと,Dell Mini 10vのバッテリが過放電状態から戻らないで使用不能に陥っているからである。電源を入れてもすぐ落ちる。バッテリを外して外部電源だけでやってみても同じである。電源LEDは点滅というか橙と白が交互に点灯する。Inspiron Mini 9をご利用のみのお客様へ、バッテリー充電のお願いと同じ現象のようだが,丸一日充電を続けても改善されない。修理に出すしかないか。

ITパスポート試験の円グラフ

円グラフ

円グラフ(特に3D版)の問題点は3D円グラフを使うのはやめよう円グラフを棒グラフにして良くなった例で述べた。3Dでなくても,ITパスポート試験の性別年代別構成比グラフに入る項目名として,適切なものはどれかという問いにあるような円グラフは,情報デザイン的にあまりいただけない。解説に「円グラフでは,構成比の多い項目から順番にプロットしていきます」とあるが,もともと男女別・年齢区分別のデータであるのに,男女や年齢の順序関係を無視して構成比の多い順に並べても,見えてくるべきものが見えてこない。

IOCの投票

Rio de Janeiro elected as the 2016 Host City (IOC):

R1R2R3
Rio 264666
Madrid 282932
Tokyo 2220--
Chicago18----
Sum 949598

投票者数はだんだん増えたのだ。Round 1で棄権した1人[追記:コメントで指摘いただいたように棄権ではなく候補国の委員は投票権がないのでした]と,シカゴに投票した18人と,東京を見捨てた2人,合わせて21人のうち,20人がRound 2でRioに回った[追記:コメントで指摘いただいたようにこれは推測に過ぎません]。こういうことがあるので,1回の投票で単純多数決は民意を反映するとは限らない。

世論調査のウソを数学で見抜く

Slashdot の Math Indicates Pollster Is Forging Results からのリンク,特に Strategic Vision Polls Exhibit Unusual Patterns, Possibly Indicating Fraud を少し読んでみた。

世論調査会社 Strategic Vision の調査結果の末位の数字(0〜9)の度数分布は 562, 431, 472, 490, 526, 599, 533, 639, 676, 616 である。一様分布からのずれをχ2検定してみると p 値はほぼ 0 であり,でっちあげの数字である可能性がある。

ところが,2008年の上院や大統領選の世論調査の末位の数字の分布は 560, 563, 619, 620, 672, 673, 644, 642, 652, 609 であり,これも一様分布からかなりずれている(p = 0.0066)。

しかも,どちらの分布も,ベンフォードの法則とは逆の傾向を示している。

関連サイトにはたくさんのコメントが付いているようだが,読み切れていない。

鳩山内閣支持率

JNN 80.1%
毎日 77%
日経 75%
読売 75%
NHK 72%
共同 72.0%
朝日 71%
産経 68.7%
日テレ 67.7%

コンテンツの配信