2段階t検定の是非

2群の平均値の差の検定で,まずF検定で分散が等しいかどうか検定してから,通常のt検定かWelchの検定かに振り分けることを勧める本やサイトがまだ多い。何でそんな気持ち悪いことをするんだ!?という話を少し前に書いた(t検定の話)。理屈だけでは弱いので,シミュレーション結果を載せている論文がないか調べたところ, Donald W. Zimmerman, ``Some properties of preliminary tests of equality of variances in the two-sample location problem'', The Journal of General Psychology, Vol.123, pp.217-231 (1996) というのを見つけた(たくさんあるだろうが最初に見つかったのがこれである。ほかにあったら教えてください)。乱数で1万回ずつやってみたと書いてあるが,2008年ならMooreの法則に従えば100万回ずつやってみればよいだろう。この時点で論文の検索はやめて,自分でやってみることにした。調べた条件をRで書けば

  x = rnorm(10, mean=0, sd=1.5)
  y = rnorm(30, mean=0, sd=1.0)
  vp = var.test(x,y)$p.value
  p = t.test(x, y, var.equal=(vp > 0.05))$p.value

これが0.05(または0.01)より小さくなる(第1種の過誤の)割合を100万回の試行で調べる。方法は,等分散を仮定したt検定(var.equal=TRUE),F検定で0.05を境に切り替える(上の通り),0.2を境に切り替える(上の0.05を0.2にする),最初からWelchの検定だけ(デフォルトの t.test(x,y)),の4種類。結果は次の通り(Rで1時間ほどで完了)。

 0.050.01
等分散を仮定0.1074690.033762
2段階,0.050.0801980.024796
2段階,0.20.0642140.01855
Welchだけ0.0515150.011337

つまり,この条件では,Welchだけの場合が理屈通りの第1種の過誤(0.05,0.01)に一番近い。他の条件で調べるのは学生の練習問題(徹底的に調べれば卒論にしてもいい)。

2段階t検定その後

中澤 港先生のサイトからリンクしていただいたおかげで,青木先生が二群の平均値(代表値)の差を検定するときにたくさんのシミュレーション結果を載せておられることを知りました。2段階のt検定については計算されていませんが,下のほうに「なお,事前検定を行うことが不適切であることはだんだん理解されてきているので,この観点から言えば「等分散検定後に普通の t 検定」というのは好ましくない。分散が等しかろうと等しくなかろうと,最初からズバリ「等分散を仮定しない t 検定」を行うのが正しいやり方である。」とズバリ書いておられます。

直接関係ありませんが,2段階の検定については,こういうシナリオも考えました:分布が正規分布であることを検定して,通れば正規分布を仮定した検定をし,通らなければノンパラメトリックな検定をする。こんなふうに書いてある本があるかどうかは知りませんが,もしあるとすれば,槍玉に挙げたくなります。:-)

SPSSによる統計データ分析

私は大学時代に数学関係の単位を1つもとらなかったのが自慢です!(^^)! そのくせ,統計パッケージプロフラム(APPER)をFortranで作っていたんですけどね。で,この夏の社会人院生としての集中講義(教育・心理学統計演習)で「SPSSによる統計データ解析」をまるまる1冊実習しました。統計学を勉強したことがないわたしでも,門前の小僧で何となく聞いたことがあるようなことを,昔のSPSSではなくExcelのマクロを使っている感じで,ひょこひょこ計算できるのには驚きました。
 で,この本の91ページには『母分散の等質性を判断するためF検定を行った結果,有意確率(p値)があらかじめ設定された有意水準(危険率)より小さくなれば,統計的に有意であるとして,2つの母分散は同じ値とはいえないと考える。 (中略) 母分散が等質でないと考えられるならば,対応のない2つの平均値の比較は,通常のt検定を改良したウェルチ(Welch)の検定(中略)の結果を見ることになる』とありますし,92ページには『表3.1.2において等分散性のためのLeveneの検定の結果をみると,有意確率は0.104となっており,通常用いられる有意水準0.05を下回っていないので母分散は異なるといえないと判断する。これ以降,対応のないt検定の結果を見るときは「等分散性を仮定する」の行を見ることになる』とあります。
 これって,このトピックと関係のあることなんでしょうか?

Re: SPSSによる統計データ分析

APPERってのは落伍弟子さんが作られたのですか?!

後半,まさにここで問題としていることで,ほとんどすべての本にそう書いてあるんです。

APPER

私の言うAPPERというのは,昭和50年代に京都教育大学で開発した統計処理パッケージです。SPSSが京大とかの大型計算機センターに行かないと使えないので,それと同じような処理系を教育工学センターの助教授(当時)と助手(当時)と共同研究者(専門は数学)が設計,コーディングしていました。私も学生としてコーディングしてました。HDDの管理システムや,CRTエディタ,マークシート,テープ管理システムなどDOSを解析してかなりのことをしてました。ミニコンでは処理できないデータ量があっても,HDDのファイルシステムをごまかしてスワップしたり,リンカーの機能を解析してオブジェクトモジュールをオーバーレイして稼動させたりしてました。
 Linkerがライブラリを呼び出す順序が重要(ライブラリモジュールの名前解のため)というのはメーカのSEもしりませんでしたね。彼らは「おまじないで,この順序にしないといけません」と教えてくれました!(^^)!

Re: APPER

ぴんぽーん

統計値については,SPSSで計算した結果と比較してもらった記憶があります。当時のミニコンのFortranはメーカー標準ライブラリが信用できないので,数学科の先輩(当時はすでに附属学校の数学教員に採用されておられました)がサブルーチンを作成したものを利用したりした記憶があります。私はDOSを逆アセンブルしてDASD管理をCP/MみたいにジョブコンなしにFortranから管理できるライブラリを作ったり,BIT演算できるライブラリを作ったりして,Fortranをアセンブラ代わりにしてました。
 むかしはコーディングもしてたんだなあ,という話。いまは全然ダメです。Cなんて分かりません。

ミニコンのFORTRANか、懐かしい

CiNiに掲載されている論文の発表年がはっきりしませんが(1976と思われますが)はっきり言って同年代でしょう。2つ目の大学でしたが、学生が自由に使用して良いと言われたコンピュータ(OKITAC-4300C)がありました。IPL用のROMがあり、オープンリールテープが付いていました。磁気コアメモリで容量は4Kワードでした。入力はテレタイプに付属した紙テープで、2年目には、誤字にはテープの裏から目張りして、その行だけマニュアルで穴を開けて修正していました。
オープンリールテープが導入する前は、ライブラリテープが項目別に仕分けしてあって、それを順番に読み込ませる必要がありましたが、オープンリールテープの導入によって自動的に読み込まれるようになり、職人から一部のプロ的学生に開放された機械でした。それでも、時々witeをeriteなどと打ち間違えると、普段はすぐ終了するコンパイルが、テープがどんどん読み込まれ、最後まで達すると音を立てて巻き戻しが終了した後、erite not foud.と出てがっくり。
この手のソースコードは今でも入手可能なのでしょうか。FORTARNといっても、JIS 3000レベルでGOTOの数の制限があり大変でした。後輩がASCIIに掲載されたStarTrekを移植して遊んでましたが、テレタイプベースなので用紙の使用量が半端でなく(両端穴あき紙なので、裏表だけでなく、左右もひっくり返して1枚を4回使用してました。)しかし、数学教室の経費を遊びに使うなと止められてしまいました。移植はプログラムの勉強なのでデバッグまでは可。使用は不可です。ちなみにその当時に担当教員は、数学の世界で有名なぼさぼさ頭のバンダナ教授です。その当時はまとも(?)でしたが。
それにしても、著作権が切れていたらぜひ公開して欲しいものです。もっとも、「テープでは残っているが、読める機器が無い。印刷もほとんど消えてる。」というケースも多いでしょうが。

DOS45でした

私が作っていたのは昭和52~54年です。OKITAC-4500と4300Cをチャネル接続して,4300にはテクトロニクスのストレージ管を取り付けてグラフィック表示にしてました。45も43もブーとストラップコードをピアノキーで入力してPTRからIPLを読み込ませてDOSを起動させました。誰が一番早くブートストラップできるかを競争したものです。DOS45はFortran7000レベルでした。私はPaloAltoBASICの機械語を読んでBASICの文法を想像してSTARTREKをFORTRANで書きました。私の場合は条件付で許されました!(^^)! というのは,ライブラリコンピュータの機能を増やしてみろというのです。それにはリンカーのダイナミックリンク機能を利用する必要があるので,実用になるかどうかをTRATREKゲームでデバッグするというものでした。どういうメモリー配置にすると動作するかとかいうノウハウを蓄積する目的でした。ですからAPPERの統計パッケージはダイナミックリンクで必要なライブラリを必要なときにメモリ配置できるようになりました。そこまでやってたので,バックアップとかのシステム管理も当時のゼミ生でやってました。
 残念ながら,ソースコードは残っていません。当時の磁気テープは同じ装置でなければ読めません!(^^)!後継バージョンをMELCOM-COSMO-700S(これもシスオペ権限持ってました!(^^)!)で作ったのですが,そのテープもどこに行ったのか不明です。残念。
 ちなみにOKI45は京都コンピュータ専門学校にあります。
http://ymiwa.exblog.jp/7166997/

F検定→t検定,ロジックの首尾一貫性

図書館で佐伯胖,松原望 編『実践としての統計学』(東京大学出版会,2000年)をぱらぱら読んでいたら,「t検定の前に分散が等しいかどうかのF検定を行なうが,この場合は帰無仮説が採択されると二つの分散が等しいと想定して次のステップへ移る.これは仮説検定のロジックの首尾一貫性という観点からいっておかしいと思われるが,通常の統計学の教科書ではこう書いてある.」(pp.149-150)。同じ本でもpp.38-39では普通の教科書の記述がされています。

コメントの表示オプション

お好みの表示方法を選択し、「設定の保存」をクリックすると、表示方法を変更することができます。