3紙の数値があまりによく一致しているのに不思議に思ったので試算。
支持率が r として、N の回答数に対して、m という支持回答数は、二項分布に従うのではないかと思います。十分 Nr が大きいけれど N よりは十分小さいので、ほぼ平均と分散が Nr のポワソン分布と考えてよいとすると、標準偏差は、回答数1000の毎日と読売で +/-0.7%, 朝日で +/- 0.5%。(質問のしかたと母集団が同じであれば)1%以内でよく一致して、不思議ではない、という結果になりました。
逆に朝日とNHKは4σ以上離れているので、問い方や母集団が違うのかも知れません。
こういう考え方でよろしいでしょうか?
二項分布?
3紙の数値があまりによく一致しているのに不思議に思ったので試算。
支持率が r として、N の回答数に対して、m という支持回答数は、二項分布に従うのではないかと思います。十分 Nr が大きいけれど N よりは十分小さいので、ほぼ平均と分散が Nr のポワソン分布と考えてよいとすると、標準偏差は、回答数1000の毎日と読売で +/-0.7%, 朝日で +/- 0.5%。(質問のしかたと母集団が同じであれば)1%以内でよく一致して、不思議ではない、という結果になりました。
逆に朝日とNHKは4σ以上離れているので、問い方や母集団が違うのかも知れません。
こういう考え方でよろしいでしょうか?
Re: 二項分布?
ポアソンで考えなくても,2項分布の分散は np(1-p) ですので,割合の標準偏差なら sqrt(p(1-p)/n) で,だいたい sqrt(0.2*0.8 / 1000) で1%強ですね。
Re: 二項分布?
で,もっと厳密に有意確率を求めたいのでしたら,
http://oku.edu.mie-u.ac.jp/~okumura/stat/fishertest.php
にあるFisherの方法を使うのが正確です。
Re: 二項分布?
http://oku.edu.mie-u.ac.jp/~okumura/stat/tests_and_CI.html
に特に2項分布の場合の検定と区間推定の考え方を書きました。
Re: 二項分布?
解説ありがとうございました。よくわかりました。
朝日とNHKの3%差も、さほど有意といえないようですね。
Re: 二項分布?
はい,そういうことになります。今回のデータを使って,多重比較の問題も含めて,
http://oku.edu.mie-u.ac.jp/~okumura/stat/fishertest.php
を改訂しました。
当サイトのブラウザシェア
MSIE Firefox Safari other
2008-11-23 270844 217598 39350 508155
2008-11-30 330047 223949 39400 651447
2008-12-07 287985 220835 38664 473165
2008-12-14 328999 281554 47710 494405
それぞれ当該日付の午前4時からの1週間です。
対数グラフみたいなもの
数値で表記すると、桁数と対数は概ね比例しますので、対数グラフを見ているようなものですね。やっぱりそうでないグラフで見たい気分です。
グラフ化
どれも増えてるってことは,その他もろもろが減ったということでしょうか。このあたり,ちゃんと分析できていません。
バックグラウンド
> どれも増えてるってことは,その他もろもろが減ったということでしょうか。
それ以外の可能性もありますね。人間のアクセスが増えたのに対して,バックグラウンド(黒体輻射じゃないロボットたち)が一定ということも。
ということは
クローラーやRSSreaderの類が多いということなんですね。それを取り除くとどうなるのでしょうか。ちなみにうちの最近のデータは、こんな感じ。
163 Opera
243 Apple-PubSub
402 livedoor FeedFetcher
439 Hatena Antenna
501 Bloglines
723 AppleSyndication
1248 Feedfetcher-Google
5840 Firefox
7370 Microsoft Internet Exploder
グラフにしてません。ごめんなさい。
Microsoft Internet Exploder
すばらしい!
それは
webalizerのdefault設定です。本当にデフォルトだと
Micro$oft Internet Exploder
となってますけど…
えっ>Webalizer
知らなかったです ^^;